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译 者 序 


当 着 手 翻 译 第 三 版 时 ， 我 不 由 得 回想 起 开始 接触 Linux 的 那 段 日 子 。 


几 年 前 ， 当 我 们 拿 到 Linux 内 核 代 码 开 始 研究 时 ,可 以 说 茫然 无 措 。 其 规模 之 大 ， 叫 “ 徐 
压 三 百 余 里 ， 隔离 天 日 ”似乎 不 为 过 ; 其 关系 错综复杂 ， 叫 “ 订 腰 缓 回 ， 权 牙 南川 ， 各 
抱 地 势 ， 负心 斗 角 ” 也 非 言 过 其 实 。 阿 房 宫 在 规模 和 结构 上 给 人 的 震撼 可 能 与 Linux 有 
异曲同工 之 好 。“ 楚 人 一 炬 ， 可 怜 售 土 "， 可 能 正 是 因为 它 的 结构 和 规模 ， 阿 房 宫 在 中 国 
两 二 多 年 七 极 的 封建 历史 中 终于 没有 再 现 ， 只 能 叫 后 人 扼腕 叹息 ; 但 是 ，Linux 却 实 实 
在 在 地 意 立 在 我 们 面前 ， 当 我 们 徘徊 在 这 宏伟 宫殿 之 前 时 ， 或 许 ， 我 们 也 需要 火 拒 一 一 
不 是 用 来 仅 灭 ， 而 是 为 了 照 亮 勇者 脚下 的 征途 。 


Linus Torvalds 在 我 们 面前 展现 的 Linux 处 法 卷轴 ， 让 我 们 的 视野 进入 一 个 自由 而 开放 
的 新 世界 。 自 由 意味 着 自我 价值 的 实现 , 开放 代表 着 团结 协作 的 理想 ,这 对 于 从 没 把 担 
过 核心 操作 系统 的 中 国人 来 说 ,无疑 燃 起 了 心中 的 梦想 。 于是, 许多 人 涡 不 犹 光 地 走 进 
来 了 ， 硕 望 深入 到 那 散发 自由 光彩 、 由 众人 团结 协力 搭 造 起 的 怀 堂 。 但 是 很 快 ， 不 少 人 
退缩 了 。 面 对 这 样 一 个 汪洋 大 海 ， 有 的 人 迷 普 了 ， 出 海 的 航道 在 哪里 ”有 的 人 倒 下 了 ， 
漫漫 征途 何 时 是 尽头 ? 我 常常 想 ， 如 果 那 时 他 们 手中 就 有 这 本 书 的 话 …… 


Daniel P.Bovet 和 Marco Cesati 携手 为 我 们 打造 了 这 本 瀣 篇 巨著 ， 自 此 我 们 有 了 火把 ， 
有 了 航海 图 ， 于 是 我 们 就 有 了 彼岸 ， 有 了 航道 ， 也 有 了 补给 码头 。 不 是 吗 ? 中 断 虽 葡 ， 
但 第 四 、 六 两 樟 切 中 毅 花 的 剖析 ,和 毅 定 能 让 你 神 清 气 开 ; 内 存 管理 虽 难 ， 但 多 达 三 章 细 
致 入 微 的 说 理 一 定 会 让 你 茶 塞 顿 开 。 内 容 的 组 织 更 是 别 具 玫 心 , 每 章 开始 部 分 一 般 性 原 
理 的 描述 打破 了 知识 的 局 限 , 将 每 个 部 分 的 全 景 展现 在 你 面前 。 而 针对 每 个 知识 点 落 到 
实处 的 独到 分 析 ， 又 会 使 你 沉迷 于 知识 的 融会 贯通 之 中 。 第 三 版 对 Linux 2.6 的 全 面 描 
述 会 使 你 为 2.4 与 2.6 之 间 的 汐 守 而 感叹 ,但 请 放心 , 你 曾 从 Linux 旧 版 本 中 获取 的 点 泣 
依然 是 你 前 进 的 基石 。 总 之 ,你 面 对 的 不 再 是 赤裸 梨 的 代码 ， 而 是 真正 能 雅 俗 共 实 的 艺 
木 。 


对 整个 Linux 社区 来 说 ， 这 绝 不 是 微 末 的 页 献 而 已 ， 连 Andre Morton 都 已 经 指出 :“ 内 
核 的 学 习 曲 线 变 得 越 来 越 长 ， 也 越 来 越 陡 ! 峭 。 系 统 规 模 不 断 扩 大 ， 复 杂 程 度 不 断 提高 。 
长 此 以 往 ， 虽 然 现 在 这 一 拨 内 核 开 发 者 对 内 核 的 掌握 越发 炉火纯青 ， 但 却 会 造成 新 手 无 


法 跟 上 内 核发 展 步 做 ， 出 现 青黄不接 的 断层 。 而 这 本 书 的 目的 无 疑 是 为 了 弥合 这 个 断 
层 。 按 照 这 本 书 指明 的 道路 ， 我 们 可 以 秀 过 暗礁 ， 绕 过 险滩 ， 穿 过 北 流 ， 勇 往 直 前。 这 
也 是 为 什么 这 本 书 总 在 Linux 书 糙 排 行 榜 中 稳 居 前 列 的 原因 之 一 。 


不 过 ,除非 行动 ,否则 地 图 再 好 也 不 会 让 人 向 自己 的 目标 迈进 半 步 。 所 以 ， 在 读书 的 同 
时 ， 你 还 一 定 要 亲身 实践 : 理解 内 核 某 部 分 的 捷径 就 是 对 它 做 些 修改 ,， 这 样 你 才能 越过 
代码 本 身 看 到 内 核 的 深层 机 理 。 


Linux 是 一 个 全 新 的 世界 ,世界 意 味 着 博大 精深 ,而 新 或 许 代 表 对 旧 的 割舍 和 扬弃 ， 加 
在 一 起 ,就 是 要 我 们 在 制 含 和 扬 译 的 同时 还 要 积累 知识 到 博大 精 深 的 地 步 , 这 容易 做 到 
吗 ? 是 的 ， 这 不 容易 做 到 。Gerald M. Weinberg 在 《Becoming a Technical Leader: An 
Organic Problem-Solving Approach》 一 书 中 将 成 长 总 结 为 高 原 一 低谷 模式 :“ 成 长 是 跳 
路 式 的 ,要 经 过 量 的 积累 ,在 积累 的 过 程 中 ,往往 要 伴随 着 扬弃 ,所 以 常常 会 跌 入 低谷 。 
面 对 Linux 这 个 需要 长 期 孜孜 以 求 的 学 习 对 象 ， 无 疑 这 种 震荡 会 加 重 我 们 的 疑虑 ， 降 低 
我 们 的 信心 ， 消 和 麻 我 们 的 意志 ， 使 我 们 轻易 地 认为 达到 了 自己 的 成 长 上 限 。 


根据 我 们 的 经 验 , 这 需要 系统 的 思考 来 改变 心智 模式 ,最 好 有 一 个 学 习 型 组 织 来 提供 帮 
助 : 团队 是 学 习 的 最 佳 单位 。( 可 以 参看 彼得 . 圣 吉 的 《第 五 项 修炼 $》， 这 本 书 值得 有 心 
改变 自己 并 进而 改善 周 国 世 界 的 人 一 读 再 读 。) 所 以 ， 我 们 硕 望 结合 这 本 《深入 理解 
Linux 内 核 》 创 造 这 样 的 一 个 氛围 ， 一 种 环境 .为 此 我 们 在 www.KernelTravel,net 建立 
了 中 文 网 站 “内 核 之 旅 " ， 不 但 有 一 些 有 价值 的 资料 ， 而 且 我 们 会 把 这 些 资 料 按照 学 习 
路 径 组 织 起 来 ， 让 它们 真正 件 随 内 核 学 习 者 前 进 。 


翻译 组 陈 痢 君 、 张 琼 声 、 张 宏伟 、 黄 部 字 、 夏 守 姬 、 周 冲 为 本 书 的 翻译 竭尽 全 力 ， 但 我 
们 所 做 毕竟 有 限 ， 正 是 你 的 加 入 ， 才 会 让 我 们 大 家 共同 成 长 。 


阅读 本 书 需 要 一 份 夺 ' 心 , 更 需要 一 份 执着 。 当 你 闻 过 一 道道 难关 阅读 到 本 书 的 最 后 一 章 
时 ,会 有 “ 著 然 回首 ， 那 人 却 在 灯火 闲 丙 处 ”的 感觉 1 


感谢 电力 出 版 社 给 了 我 们 翻译 这 样 一 本 好 书 的 机 会 ,感谢 编辑 为 本 书 出 版 所 做 的 细致 入 
微 的 工作 ， 


本 书 的 第 一 、 三 ~ 五 、 七 、 九 ~ 十 一 、 十 五 章 由 张 球 声 翻译 ， 第 十 六 一 二 十 章 由 张宏伟 
翻译 ， 黄 亭 字 、 夏 守 奶 、 周 冲 为 第 二 版 和 第 三 版 之 间 的 差异 做 了 大 量 校对 工作 ， 同 时 还 
参与 部 分 翻译 工作 。 全 书 由 陈 痢 君 审 校 并 统 稿 。 
译 者 
2006 年 9 月 
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在 1997 年 春季 的 那 一 学 期 ， 我 们 讲授 了 基于 Linux 2.0 操 作 系 统 这 门 课程 。 其 主导 思想 
是 鼓励 学 生 阅 读 源 代码 。 为 了 达到 这 一 上 且 的 , 我 们 按 小 组 分 配 项 目 , 这 些 项 且 对 内 核 进 
行 修改 并 对 所 修改 的 版 本 进行 测试 。 对 于 诸如 任务 切换 和 任务 调度 这 样 一 些 Linux 的 主 
要 特点 ， 我 们 也 为 学 生 写 下 了 课程 笔记 。 


除了 这 些 工作 ， 还 有 来 自 O'Reilly 编辑 Andy Oram 的 很 多 支持 ， 这 就 促成 了 《深入 理 
解 Linux 内 核 》 这 本 书 的 第 一 版 , 那 时 是 2000 年 底 , 该 版 涵盖 了 Linux 2.2 以 及 对 Linux 
2.4 的 一 些 展望 。 这 本 书 的 成 功 鼓 励 我 们 继续 沿 这 一 思路 走 下 去 ,在 2002 年 底 ， 我 们 完 
成 了 涵盖 Linux 2.4 的 第 二 版 。 现 在 你 看 到 的 第 三 版 则 涵盖 了 Linux 2.6。 


与 以 往 所 经 历 的 一 样 ,我们 这 次 又 阅读 了 数 干 行 的 代码 ,并 努力 搞 清 其 含义 。 在 做 了 所 
有 这 些 工作 以 后 , 可 以 说 我 们 的 努力 是 完全 值得 的 。 我们 学 到 很 多 你 无 法 从 书本 中 找到 
的 东西 ， 因 此 我 们 希望 自己 已 经 成 功 地 在 后 面 的 内 容 中 涵盖 了 这 些 信息 。 


本 书 的 读者 对 象 

如 果 你 对 Linux 如 何 工作 、 其 性 能 又 为 什么 会 如 此 之 高 怀 有 强烈 的 好 奇 心 ， 你 将 会 从 这 
里 找到 答案 。 阅读 本 书 之 后 ,你 会 通过 上 千 行 代码 找到 自己 的 方式 来 区 别 重 要 数据 结构 
和 次 要 数据 结构 的 不 同 ， 简 而 言 之 ， 你 将 成 为 一 名 真正 的 Linux 高 手 。 


可 以 把 我 们 的 工作 看 作 是 畅游 Linux 内 核 的 向 导 ;: 我 们 讨论 了 在 内 核 中 使 用 的 很 多 重要 
的 数据 结构 、 算 法 和 编程 技巧 。 在 很 多 例子 中 ， 我 们 逐 行 讨 论 了 有 关 代 码 片段 。 当 然 ， 
你 手头 应 当 备 有 Linux 源 代码 ,你 还 应 当 乐 于 花 一 些 功夫 去 解读 那些 为 简洁 起 见 而 未 完 
整 描述 的 函数 。 
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另 一 方面 , 如 果 你 想 更 多 地 了 解 现代 操作 系统 中 的 主要 设计 问题 , 那么 本 书 将 提供 颇 有 
价值 的 见解 。 本 书 不 是 专门 针对 系统 管理 员 或 编程 人 员 的 , 而 是 主要 针对 那些 想 探究 机 
器 内 部 到 底 是 如 何 工作 的 人 们 的 ! 与 任何 好 向 导 一 样 , 我 们 试图 透 过 现象 看 其 本 质 。 我 
们 还 提供 了 背景 材料 ， 例 如 主要 特点 的 历史 及 使 用 它们 的 理由 。 


材料 的 组 织 


开始 写 这 本 书 时 , 我 们 面临 重大 的 抉择 : 是 应 该 涉及 特定 的 硬件 平台 , 还 是 跳 过 与 硬件 
相关 的 细 市 而 集中 于 纯粹 与 硬件 无 关 的 内 核 部 分 ? 


有 关 Linux 内 核 内 幕 的 其 他 书 选 择 后 一 种 方式 , 因为 下 述 理由 ,我 们 决定 采用 前 一 种 方式 : 


。 ”高 效率 的 内 核 充分 利用 硬件 可 利用 的 特点 , 诸如 寻 址 技术 、 高 速 缓存 (cache)、 处 
理 器 异常 (exception)、 专 用 指令 .处理 器 控制 寄存 问 等 等 。 如 果 我 们 想 使 你 相信 ， 
内 核 在 执行 一 个 特殊 的 任务 时 确实 工作 得 相当 好 , 那 我 们 必须 首先 告诉 你 内 核 工作 
在 一 个 什么 样 的 硬件 平台 上 。 


。 “即使 Unix 内 核 大 部 分 源 代码 是 独立 于 处 理 器 的 ， 并且 用 C 语 言 编写 , 但 也 有 少数 
重要 的 部 分 是 用 汇编 语言 编写 的 。 因此 , 为 了 充分 理解 内 核 , 就 需要 学 习 一 些 与 硬 
件 打 交道 的 汇编 语言 片段 。 


当 涉 及 硬件 特征 时 ,我 们 的 策略 非常 简单 : 对 全 部 由 硬件 驱动 的 特征 给 予 简单 描述 ,而 
对 需要 软件 支持 的 特征 给 予 详 细 描 述 。 事实 上 , 我 们 感 兴趣 的 是 内 核 的 设计 而 不 是 计算 
机 的 体系 结构 。 


我 们 下 一 步 就 是 选择 所 描述 的 计算 机 系统 。 尽管 Linux 目前 已 运行 在 很 多 种 类 的 个 人 计 
算 机 (PC) 和 工作 站 上 , 但 我 们 决定 把 主要 精力 放 在 非常 流行 且 便 宜 的 IBM PC 兼容 机 
上 ,其 中 微 处 理 器 是 Intel 80x86 及 PC 中 所 支持 的 一 些 世 片 。 在 以 后 的 章 市 中 ,术语 ” Intel 
80x86 微 处 理 器 将 表示 Intel 80386 .80486 、Pentium 、Pentium Pro Pentium II、Pentium 
II1T、Pentium 4 微 处 理 器 或 兼容 模型 。 在 少数 情况 下 ， 对 于 特殊 的 模型 会 给 出 明确 的 说 
明 。 


在 研究 Linux 各 组 件 时 , 我 们 还 必须 对 所 苯 循 的 顺序 做 出 选择 。 我 们 尝试 的 是 一 种 自 底 
向 上 的 方式 : 从 硬件 相关 的 主题 开始 ， 以 完全 与 硬件 无 关 的 主题 结束 。 事实 上 , 在 本 书 
的 初始 部 分 我 们 将 多 次 引用 Intel 80x86 微 处 理 器 , 而 其 他 部 分 相对 来 说 与 硬件 无 关 。 不 
过 , 第 十 三 章 和 第 十 四 章 是 一 种 例外 。 实 际 上 ， 遵循 自 底 向 上 的 方法 并 不 像 看 起 来 那样 
简单 , 这 是 因为 存储 器 管理 .进程 管理 和 文件 系统 这 几 部 分 相互 浴 透 ;少数 问 前 引用 ( 即 
引用 还 待 解释 的 主题 ) 是 不 可 避免 的 。 


前 


go 
(人 ) 


每 章 以 所 涵盖 内 容 的 理论 概述 开始 , 然后 按 自 底 癌 上 的 方式 组 织 材料 。 我 们 以 描述 每 章 
内 容 所 需要 的 数据 结构 开始 ， 然 后 ， 我 们 通常 从 描述 最 低级 功能 移 到 描述 较 高 级 功能 ， 
最 后 说 明 用 户 应 用 程序 所 发 出 的 系统 调用 是 如 何 得 到 支持 的 。 


描述 级 别 

支持 各 种 体系 结构 的 Linux 源 代码 包含 在 14000 多 个 C 语 言 和 汇编 语言 的 文件 中 ,这些 
文件 存放 在 大 约 1000 个 子 目 录 中 。 源 代码 大 约 由 六 百 万 行 代码 组 成 ， 占 230MB 以 上 的 
磁盘 空间 。 当 然 , 这 本 书 只 能 涵盖 源 代 码 非常 少 的 一 部 分 。 考 虑 一 下 你 所 读 的 书 的 全 部 
源 代码 只 占 不 到 3MB 的 磁盘 空间 , 就 能 想像 出 Linux 源 代码 有 多 么 庞大 了 。 因 此 , 即使 
不 对 源 代码 进行 解释 ， 只 列 出 所 有 的 代码 ，75 本 书 也 写 不 完 ! 


因此 ， 我 们 必须 对 要 阐述 的 内 容 做 出 选择 ， 我 们 的 决策 大 致 情况 如 下 : 
。 ”我 们 相当 全 面 地 描述 了 进程 管理 和 内 存 管 理 。 


。 ”我 们 涵盖 了 虚拟 文件 系统 以 及 Ext2 和 Ext3 文 件 系 统 , 不 过 , 很 多 功能 仅仅 是 提 太 
而 已 ， 并 没有 对 其 代码 进行 详尽 描述 :我 们 不 讨论 Linux 所 支持 的 其 他 文件 系统 。 


。 ”我 们 描述 了 占 内 核 50% 左右 的 设备 驱动 程序 ， 但 仅 涉 及 有 关 的 内 核 接 口 ， 而 并 不 
试图 分 析 每 个 具体 的 驱动 程序 。 
本 书 撕 述 的 是 Linux 内 核 2.6.11 的 正式 版 ， 可 以 从 http:/www.kernel.org 站 点 下 载 。 


注意 ， 很 多 GNU/Linux 发 布 版 都 对 正式 内 核 进行 了 修改 ， 以 实现 新 的 特点 或 提高 其 效 
率 。 在 少数 情况 下 , 由 你 喜爱 的 发 布 版 所 提供 的 源 代 码 可 能 与 本 书 所 描述 的 源 代码 有 很 
大 的 不 同 。 


在 很 多 实例 中 , 我 们 展示 了 以 易 读 但 低 效 的 方式 重 写 的 原始 代码 的 片段 。 这 些 代码 出 现 
在 关键 时 间 点 上 , 在 这 些 点 上 , 程序 片段 是 用 手工 优化 的 C 语 言 和 汇编 代码 混合 在 一 起 
编写 的 。 再 次 声明 ， 我 们 的 目的 是 为 研究 Linux 原始 代码 的 人 提供 一 些 帮助 。 


在 讨论 内 核 代 码 时 , 我 们 常常 同时 描述 Unix 程 序 员 熟悉 的 很 多 基础 知识 《共享 内 存 和 了 映 
射 内 存 、 信 和 号. 管道、 符号 链 等 等 ), 也 许 他 们 听 说 过 这 些 内 容 , 但 可 能 还 想 进一步 了 解 。 


本 书 概述 


为 了 对 全 书 有 一 个 大 体 了 解 , 在 第 一 章 “ 绪 论 ” 中 对 Unix 内 核 内 部 结构 给 出 了 一 般 性 描 
述 ， 并 说 明 Linux 如 何 与 其 他 著名 的 Unix 系统 展开 竞争 。 
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任何 Unix 内 核 的 核心 都 是 内 存 管理 。 第 二 章 “ 内 存 寻 址 ”说 明 Intel 80x86 处 理 器 包含 
有 对 内 存 数据 进行 寻 址 的 特殊 电路 ， 并 解释 Linux 如 何 充分 利用 它们 。 


进程 是 Linux 所 提供 的 一 种 基本 抽象 ， 这 在 第 三 章 “ 进 程 ”中 进行 介绍 。 在 这 一 章 ， 我 
们 也 解释 了 每 个 进程 如 何在 非特 权 的 用 户 态 下 运行 ， 又 如 何在 有 特权 的 内 核 态 下 运行 。 
用 户 态 与 内 核 态 之 间 的 转换 只 能 通过 已 建立 的 所 谓 中 断 和 异常 处 理 硬 件 机 制 实现 ,这 些 
内 容 将 在 第 四 章 “ 中 断 和 异常 ”中 介绍 。 


在 很 多 情况 下 ,内 核 必 须 处 理 来 自 不 同 设 备 和 处 理 器 的 突 发 性 中 断 。 因 此 , 就 需要 同步 
机 制 , 以 便 所 有 这 些 请 求 能 由 内 核 以 交错 方式 去 处 理 : 这 些 将 在 第 五 章 “ 内 核 同步 ”中 
进行 讨论 ， 其 中 既 涉 及 单 处 理 器 系统 ， 也 涉及 多 处 理 器 系统 。 


定时 中 断 使 Linux 能 够 处 理 已 经 经 历 的 时 间 ， 是 一 种 重要 的 中 断 类 型 ， 更 详细 的 内 容 将 
在 第 六 章 “ 定 时 测量 ”中 介绍 。 


第 七 章 “ 进 程 调度 ”说 明 Linux 如 何 轮流 执行 系统 中 的 每 个 活动 进程 ， 以 便 所 有 的 进程 
都 能 顺利 地 执行 完 。 


接 下 来 我 们 再 一 次 集中 讨论 内 存 。 第 八 章 “ 内 存 管理 ”描述 用 来 处 理 系统 中 最 宝贵 的 资 
源 可 用 内 存 (当然 除了 处 理 器 ) 一 一 所 需要 的 复杂 技术 。 这 种 资源 必须 同时 满足 
Linux 内 核 和 用 户 应 用 程序 的 需要 。 第 九 章 “ 进 程 地 址 空间 ”讲述 内 核 如 何 处 理应 用 程 
序 对 内 存 发 出 的 “ 贪 转 (greedy)” 请 求 。 


第 十 章 “ 系 统 调用 ”说 明 在 用 户 态 下 运行 的 进程 如 何 对 内 核发 出 请 求 ;而 第 十 一 章 “ 信 
号 ”描述 进程 如 何 给 其 他 进程 发 送 同步 信号 。 现 在 我 们 准备 进入 另 一 个 实质 性 的 主题 ， 
即 Linux 如 何 实现 文件 系统 。 很 多 章节 涉及 到 这 个 主题 。 第 十 二 章 “ 虚 拟 文件 系统 ” 介 
绍 了 支持 很 多 种 不 同文 件 系统 的 通用 层 。 某 些 Linux 文件 比较 特殊 ， 这 是 因为 它们 能 提 
供 到 达 硬 件 设备 的 陷阱 门 ; 第 十 三 章 “IO 体 系 结构 和 设备 驱动 程序 " 以 及 第 十 四 章 “ 块 
设备 驱动 程序 ”进一步 考察 了 这 些 特殊 的 文件 和 相应 的 硬件 设备 驱动 程序 。 


另 一 个 值得 考虑 的 问题 是 磁盘 访问 时 间 , 第 十 五 章 “ 页 高 速 缓存 ”说 明 灵 活 地 利用 RAM 
可 以 减少 磁盘 的 访问 时 间 ， 因 而 极 大 地 提高 系统 的 性 能 。 在 前 几 章 内 容 的 基础 上 , 我 们 
将 在 第 十 六 章 “ 访 问 文 件 ” 中 讨论 用 户 应 用 程序 如 何 访问 常规 文件 。 在 第 十 七 章 “ 回 收 
页 框 ” 完 成 对 Linux 内 存 管理 的 讨论 ， 并 说 明 Linux 确保 总 是 有 足够 的 内 存 所 使 用 的 技 
术 。 第 十 八 章 “Ext2 和 Ext3 文件 系统 ”是 讨论 文件 系统 的 最 后 一 章 ， 阅 述 了 Linux 最 常 
用 的 文件 系统 ， 即 Ext2 及 最 新 改进 的 Ext3。 





最 后 两 章 结束 我 们 对 Linux 内 核 的 详细 游览 : 第 十 九 章 “进程 通信 ”介绍 通信 机 制 而 不 是 
用 户 态 进程 使 用 的 信和 号, 第 二 十 章 “ 程 序 的 执行 ”说 明 用 户 应 用 程序 是 如 何 开始 执行 的 。 
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Cn 


最 后 ， 但 必 不 可 少 的 ， 就 是 附录 ， 附录 一 “系统 启动 ”大 致 描述 了 Linux 如 何 启 动 ， 而 
附录 二 “模块 ” 描述 怎样 动态 地 重新 配置 正在 运行 的 内 核 , 即 按 需 增加 或 删除 有 关 功 能 。 
源 代码 索引 (Source Code Index) 包含 了 在 本 书 中 引用 的 所 有 Linux 符号 ， 你 将 在 这 里 
找到 定义 每 个 符号 的 Linux 文件 名 , 以 及 对 这 个 符号 进行 解释 的 正文 所 在 的 页 码 。 我们 
认为 你 会 发 现 它 非常 方便 实用 。 


育 景 知识 


除了 一 些 C 语 言 编程 技巧 和 汇编 语言 的 知识 外 ， 理 解 这 些 内 容 不 需要 任何 先决 条 件 。 


排版 约定 
下 面 是 本 书 在 英文 字体 上 的 两 个 约定 : 


等 宽 字 体 (Constant width) 
用 来 说 明代 码 文 件 的 内 容 或 命令 输出 的 内 容 , 也 表示 出 现在 代码 中 的 源 代 码 关 键 字 。 


斜体 (ltalic) 
用 来 说 明文 件 名 、 目 录 名 、 程 序 名 、 命 令 名 、 命 令 行 选 项 和 URL.。 


如 何 与 我 们 联系 
请 把 有 关 本 书 的 评论 和 问题 告知 出 版 社 
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Linux ( 注 1) 是 类 Unix (Unix-like) 操作 系统 大 家 族 中 的 一 名 成 员 。 从 20 世纪 90 年 代 
末 开 始 ，Linux 这 位 相对 较 新 的 成 员 突 然 变 得 非常 流行 ， 并 且 跻 身 于 那些 知名 的 商用 
Unix 操作 系统 之 列 ， 这 些 Unix 系统 包括 AT&T 公司 (现在 由 SCO 公司 拥有 ) 开发 的 
(System V Release 4) SRV4、 加 利 福 尼 亚 大 学 伯克利 分 校 发 布 的 4.4BSD、DEC 公司 
(现在 属于 HP) 的 Digital Unix、IBM 公 司 的 AIX、HP 公 司 的 HP-UX、Sun 公 司 的 Solaris ， 
以 及 Apple 公司 的 Mac OS X。 除 了 Linux 之 外 ， 还 有 一 些 其 他 的 类 Unix 操作 系统 也 是 
开放 源 代 码 的 ， 如 FreeBSD、NetBSD 以 及 OpenBSD. 


1991 年 ，Linus Torvalds 开发 出 最 初 的 Linux， 它 作为 一 个 适用 于 基于 Intel 80386 微 处 
理 器 的 IBM PC 兼容 机 的 操作 系统 。 现 在 ，Linus 依然 不 遗 余 力 地 改进 Linux, 使 它 保持 
与 各 种 硬件 平台 同步 发 展 ， 并 协调 世界 各 地 数 百 名 Linux 开发 者 的 开发 工作 。 几 年 来 ， 
开发 者 已 经 使 Linux 可 以 在 其 他 平台 上 运行 ,包括 HP 的 Alpha、Intel 的 Itanium，AMD 
的 AMD64、Power PC 及 IBM 的 zSeries 。 


Linux 最 吸引 人 的 一 个 优点 就 在 于 它 不 是 商业 操作 系统 ; 它 的 源 代 码 在 GNU 公 共 许 可 证 
(General Pwblic License，GPL) ( 注 2) 下 是 开放 的 ,任何 人 都 可 以 获得 源 代 码 并 研究 
它 ( 就 像 我 们 在 本 书 中 那样 研究 }， 只 要 你 下 载 源 代码 (可 以 下 载 源 代码 的 官方 站 点 是 
http://www.kernel.org/), 或 者 在 Linux 光盘 上 找到 源 代 码 , 你 就 可 以 从 用 户 接口 层 到 与 


注 1: Linux 是 Linus Torvaeds 注册 的 商标 。 


注 2: GNU 项 目 是 由 自由 软件 基金 会 (hiip:/www.gun.org) 所 协调 的 ， 其 目的 是 实现 一 个 完 
整 的 操作 系统 ， 供 所 有 人 免费 使 用 。GNU C 编译 器 对 Linux 项 目的 成 功 必 不 可 少 ， 
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硬件 密切 相关 的 操作 系统 核心 层 , 对 这 个 最 成 功 而 又 最 现代 的 操作 系统 进行 由 表 及 里 的 
研究 。 事 实 上 本 书 假 定 你 有 源 代 码 ， 而 且 你 能 把 我 们 介绍 的 方法 应 用 到 自己 的 探索 中 。 


从 技术 角度 来 说 , Linux 是 一 个 真正 的 Unix 内 核 , 但 它 不 是 一 个 完全 的 Unix 操作 系统 ， 
这 是 因为 它 不 包含 全 部 的 Unix 应 用 程序 , 诸如 文件 系统 实用 程序 、 窗 口 系 统 及 图 形 化 点 
面 、 系 统管 理 员 命令 、 文本 编辑 程序 、 编 译 程序 等 等 。 不 过 ， 因 为 以 上 大 部 分 应 用 程序 
都 可 在 GNU 许 可 证 下 免费 获得 , 因此 , 可 以 把 它们 安装 在 任何 一 个 基于 Linux 内核 的 系 
统 中 。 


因为 Linux 内 核 需要 大 量 运行 其 他 软件 才能 为 用 户 提 供 一 个 有 用 的 环境 ， 因 此 很 多 
Linux 用 户 更 喜欢 依赖 从 CD-ROM 获得 的 商业 发 布 版 ， 以 得 到 包含 在 标准 Unix 系统 中 
的 应 用 层 代 码 。 另 外 ， 这 些 支 持 应 用 的 源 代 码 也 可 以 从 几 个 不 同 的 网 站 获得 ， 例 如 
http://www.kernel.org。 一 些 发 布 版 将 Linux 源 代码 安装 在 /usr/src/linux 目 录 下 。 在 本 书 
的 其 余部 分 ， 所 有 文件 的 目录 都 暗 指 这 一 目录 。 


Linux 与 其 他 类 Unix 内 核 的 比较 


市 场 上 各 种 类 Unix 系统 在 很 多 重要 的 方面 有 所 不 同 , 其 中 有 些 系统 已 经 有 很 长 的 历史 ， 
并 且 显 得 有 点 过 时 。 所 有 商业 版 本 都 是 SVR4 或 4.4BSD 的 变 体 ， 并 且 都 趋向 于 遵循 某 
些 通 用 标准 ， 诸 如 IEEE 的 POSIX (Portable Operating Systems based on Unix 基于 
Unix 的 可 移植 操作 系统 ) 和 X/Open 的 CAE (Common Applications Environment， 公 
共 应 用 环境 )。 


现 有 标准 仅仅 指定 了 应 用 程序 编程 接口 (application programming interfale ，API) 一 
一 也 就 是 说 ,指定 了 用 户 程序 应 当 运 行 的 一 个 已 定义 好 的 环境 。 因 此 ,这些 标 准 并 没有 
对 内 核 的 内 部 设计 施加 任何 限制 ( 注 3)。 


为 了 定义 一 个 通用 用 户 接口 ， 类 Unix 内 核 通 常 采用 相同 的 设计 思想 和 特征 。 在 这 一 点 
上 ，Linux 和 其 他 的 类 Unix 操作 系统 是 一 样 的 。 因 此 ， 阅 读本 书 并 研读 Linux 内 核 也 有 
助 于 你 理解 其 他 Unix 变 体 。 


Linux 内 核 2.6 版 的 目标 是 遵循 IEEE POSIX 标 准 。 这 意味 着 在 Linux 系统 下 , 很 容易 编 
译 和 运行 目前 现 有 的 大 多 数 Unix 程序 ， 只 需 少许 或 根本 无 需 为 源 代 码 打 补丁 。 此 外 ， 
Linux 包括 了 现代 Unix 操作 系统 的 全 部 特点 ,诸如 虚拟 存储 、 虚 拟 文 件 系统 、 轻 量 级 进 
程 、Unix 信号 量 、SVR4 进程 间 通 信 、 支 持 对 称 多 处 理 器 (Symmetric Multiprocessor， 
SMP) 系统 等 。 


注 3， 实际 上 , 一 些 非 Unix 操作 系统 (诸如 Windows NT 及 其 后 续 系 统 ) 也 遵 往 POSIX 标 准 。 
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Linus Torvalds 在 写 第 一 个 内 核 的 时 候 ， 参 考 了 Unix 内 幕 方面 一 些 经 典 的 书 ， 比 如 
Maurice Bach 的 《The Design of the Unix Operating System》(Prentice Hall，1986)。 实 
际 上 ，Linux 始终 对 Bach 的 书 ( 即 SVR4) 中 所 描述 的 Unix 基准 有 些 偏爱 。 但 是 ,Linux 
没有 拘泥 于 任何 一 个 特定 的 变 体 , 相反 , 它 尝 试 采纳 了 几 种 不 同 Unix 内 核 中 最 好 的 特征 
和 设计 选择 。 


Linux 与 一 些 著名 的 商用 Unix 内 核 到 底 如 何 竞争 ， 下 面 给予 描 述 : 


举 块 结 攀 的 内 核 (Monolithic kernel) 
它 是 一 个 庞大 、 复 杂 的 自我 完善 (do-it-yourself) 程序 , 由 几 个 逻辑 上 独立 的 成 分 
构成 。 在 这 一 点 上 ， 它 是 相当 传统 的 ,大 多 数 商用 Unix 变 体 也 是 单 块 结构 。( 一 个 
显著 的 例外 是 Apple 的 Mac Os X 和 GNU 的 Hurd 操作 系统 ， 它 们 都 是 从 卡耐基 - 
梅 隆 大 学 的 Mach 演变 而 来 的 ， 都 遵循 微 内 核 的 方法 。) 


编译 并 静态 达 失 的 传统 Unix 内 核 
大 部 分 现代 操作 系统 内 核 可 以 动态 地 装载 和 钙 载 部 分 内 核 代 码 (典型 的 例子 如 设备 
驱动 程序 ) ,通常 把 这 部 分 代码 称 做 模块 module) .Linux 对 模块 的 支持 是 很 好 的 ， 
因为 它 能 自动 按 需 装载 或 印 载 模块 。 在 主要 的 商用 Unix 变 体 中 ， 只 有 SVR4.2 和 
Solaris 内 核 有 类 似 的 特点 。 


内 巷 线 杯 
一 些 Unix 内 核 , 如 Solaris 和 SVR4.2/MP , 被 组 织 成 一 组 内 核 线程 (kernel thread ) 。 
内 核 线 程 是 一 个 能 被 独立 调度 的 执行 环境 (context); 也 许 它 与 用 户 程序 有 关 , 也 
许 仅 仅 执 行 一 些 内 核 图 数 。 线 程 之 间 的 上 下 文 切换 比 普通 进程 之 间 的 上 下 文 切 换 花 
费 的 代价 要 少 得 多 , 因为 前 者 通常 在 同一 个 地 址 空间 执行 。Linux 以 一 种 十 分 有 限 
的 方式 使 用 内 核 线程 来 周期 性 地 执行 几 个 内 核 图 数 * 但 是 , 它们 并 不 代表 基本 的 执 
行 上 下 文 的 抽象 (这 就 是 下 面 要 讨论 的 议题 )。 


多 线程 应 用 程序 支持 

大 多 数 现代 操作 系统 在 某 种 程度 上 都 支持 多 线程 应 用 程序 , 也 就 是 说 ,这些 用 户 程 
序 是 根据 很 多 相对 独立 的 执行 流 来 设计 的 ,而 这 些 执行 流 之 间 共 享 应 用 程序 的 大 部 
分 数据 结构 。 一 个 多 线程 用 户 程序 由 很 多 轻 量 级 进程 (lightweight process, LWP) 
组 成 , 这 些 进程 可 能 对 共同 的 地 址 空间 、 共同 的 物理 内 存 页 、 共 同 的 打开 文件 等 等 
进行 操作 。Linux 定义 了 自己 的 轻 量 级 进程 版 本 ， 这 与 SVR4、Solaris 等 其 他 系统 
上 所 使 用 的 类 型 有 所 不 同 。 当 LWP 的 所 有 商用 Unix 变 体 都 基于 内 核 线程 时 , Linux 
却 把 轻 有 量 级 进程 当 作 基本 的 执行 上 下 文 , 通过 非 标 准 的 clone () 系统 调用 来 处 理 
它们 。 
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抢占 式 (preemptive) 了 内核 
当 采 用 “可 抢占 的 内 核 ” 选 项 来 编译 内 核 时 , Linux2.6 可 以 随意 交错 执行 处 于 特权 
模式 的 执行 流 。 除了 Linux 2.6, 还 有 其 他 一 些 传统 的 、 通用 的 Unix 系统 (如 Solaris 
和 Mach3.0) 是 完全 的 抢占 式 内 核 。SVR4.2/MP 通过 引入 一 些 固 定 抢 占 点 (fixed 
preemption point) 的 方法 获得 有 限 的 抢占 能 力 。 


多 处 理 吕 支持 
几 种 Unix 内 核 变 体 都 利用 了 多 处 理 器 系统 。Linux 2.6 支 持 不 同 存储 模式 的 对 称 多 
处 理 (SMP)， 包括 NUMA: 系统 不 仅 可 以 使 用 多 处 理 器 ,而 且 每 个 处 理 器 可 以 毫 
无 区 别 地 处 理 任何 一 个 任务 。 尽管 通过 一 个 单独 的 “大 内 核 锁 ” 使 得 内 核 中 的 少数 
代码 依然 串 行 执行 ， 但 公平 地 说 ，Linux 2.6 以 几乎 最 优化 的 方式 使 用 SMP。 


文件 系统 
Linux 标准 文件 系统 呈现 出 多 种 风格 。 如 果 你 设 有 特殊 需要 ， 就 可 以 使 用 普通 的 
Ext2 文件 系统 。 如 果 你 想 避 免 系 统 崩 种 后 元 长 的 文件 系统 检查 ， 就 可 以 切换 到 
Ext3 。 如 果 你 不 得 不 处 理 很 多 小 文件 ，ReiserFS 文 件 系 统 可 能 就 是 最 好 的 选择 。 除 
了 Ext3 和 ReiserFS， 还 可 以 在 Linux 中 使 用 另外 几 个 日 志文 件 系统 ， 这 些 文件 系 
统 包 括 IBM AIX 的 日 志文 件 系统 (Journaling File System, JFS) 和 SGI 公 司 IRIX 
系统 上 的 XFS 文件 系统 。 有 了 强大 的 面向 对 象 虚 拟 文件 系统 技术 (为 Solaris 和 
SVR4 所 采用 )， 把 外 部 文件 系统 移植 到 Linux 比 移植 到 其 他 内 核 相 对 要 容易 。 
STREAMS - 
尽管 现在 大 部 分 的 Unix 内 核 内 包含 了 SRV4 引 入 的 STREAMS 1/O 子 系统 ， 并 且 
已 变 成 编写 设备 驱动 程序 、 终端 驱动 程序 及 网 络 协 议 的 首选 接口 , 但 是 Linux 并 没 
有 与 此 类 似 的 子 系统 。 


对 Linux 的 评价 充分 说 明 ， 与 商业 化 的 操作 系统 相 比 ，Linux 已 经 具备 足够 的 竞争 力 。 
而 且 , Linux 一 些 独 具 特 色 的 特点 使 其 成 为 一 种 趣味 委 然 的 操作 系统 。 商业 化 的 Unix 内 
核 为 了 赢得 更 大 的 市 场 份额 通常 也 引入 了 新 特征 , 但 这 些 特征 本 是 可 有 可 无 , 其 稳定 性 
和 效率 都 值得 商 梭 。 事 实 上 ,现代 Unix 内 核 有 向 更 腾 肿 变化 的 倾向 , 而 Linux 以 及 其 他 
开放 源 代 码 的 操作 系统 不 受 市 场 因 素 的 制约 ,因此 可 以 根据 设计 者 的 想法 (主要 是 Linus 
Torvalds 的 想法 ) 自由 地 演进 。 尤 其 是 ， 与 商用 竞争 对 手相 比 ，Linux 有 如 下 优势 : 


Linux 是 免费 的 。 除 硬件 之 外 ， 你 无 需 任 何 花费 就 能 安装 一 套 完 整 的 Linux 系统 。 
Linux 的 所 有 成 分 都 可 以 充分 地 定制 。 通 过 内 核 编译 选项 ， 你 可 以 选择 自己 真正 需要 的 
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特征 来 定制 内 核 。 而 且 有 了 通用 公共 许可 证 (GPL) ， 你 就 可 以 自由 地 阅读 、 修 改 
内 核 和 所 有 系统 程序 的 源 代 码 〈 注 4)。 


Linux 可 以 运行 在 低档 、 便 宜 的 硬件 平台 上 . 你 可 以 用 一 个 4MB 内 存 的 旧 Intel 80386 系 
统 构建 网 络 服务 器 。 


Linux 是 强大 的 。 由 于 充分 挖掘 了 硬件 部 分 的 特点 ,使 得 Linux 系统 速度 非常 快 。Linux 
的 主要 目标 是 效率 ， 所 以 ， 商 用 系统 的 许多 设计 选择 由 于 有 降低 性 能 的 隐患 而 被 
Linus 含 弃 ， 如 STREAMSI/O 子 系 统 。 


Linux 的 开发 者 都 是 非常 出 色 的 程序 员 。Linux 系统 非常 稳定 , 有 非常 低 的 故障 率 和 非常 
少 系 统 维护 时 间 。 


Linux 内 核 非常 小 ， 而 且 紧 汉 。 我 们 甚至 可 以 把 一 个 内 核 映像 和 一 些 系统 程序 放 在 一 张 
1.4MB 的 软盘 上 |! 据 我 们 所 知 ， 没 有 一 个 商用 Unix 变 体能 从 一 张 软盘 上 启动 。 


Linux 与 很 多 通用 操作 系统 高 度 兼 容 。Linux 可 以 让 你 直接 安装 以 下 文件 系统 的 所 有 版 
本 ; MS-DOS 和 MS Windows、SVR4、OS/2、 Mac OS X、Solaris、SunOsS 、 
NEXTSTEP, 还 有 很 多 BSD 变 体 等 等 。 另外 ，Linux 也 能 对 很 多 网 络 层 进行 操作 ， 
这 些 网 络 层 如 以 太 网 [如 : 快速 以 太 网 和 高 速 (Gbit/s 及 10Gbit/s ) 以 太 网 ]、 光 
纤 分 布 式 数据 接口 (Fiber Distributed Data Interface，FDDI)、 高 性 能 并 行 接口 
(High Performance Parallel Interface，HIPPI)、1EEE 802.11 (无 线 局 域 网 ) 和 
IEEE802.15 (蓝牙 )。。 通过 使 用 适当 的 库 函 数 ，Linux 系统 甚至 能 直接 运行 为 其 他 
操作 系统 所 编写 的 程序 。 例 如 ，Linux 能 执行 为 以 下 操作 系统 所 编写 的 应 用 程序 : 
MS-DOS、MS Windows、SVR3 及 SV R4、4.4BSD、SCO Unix、Xenix, 以 及 其 
他 在 Intel 80x86 平台 上 运行 的 操作 系统 。 


Linux 有 很 好 的 技术 支持 。 不 管 你 信 不 信 , Linux 比 任何 有 版 权 的 操作 系统 更 容易 获得 补 
丁 和 更 新 ! 如 果 你 把 遇 到 的 难题 发 给 一 些 新 闻 组 或 邮件 列表 ,经 常 在 几 个 小 时 内 就 
会 得 到 回应 。 此 外 , 当 新 的 硬件 产品 投放 市 场 以 后 , 其 Linux 驱动 程序 通常 在 几 周 
内 就 可 得 到 。 与 此 相反 , 硬件 厂商 仅仅 给 少数 商业 操作 系统 发 布设 备 驱 动 程序 , 通 
常 只 有 微软 一 家 。 因 此 ， 所 有 商用 Unix 变 体 只 能 运行 在 有 限 的 硬件 上 。 


因为 有 了 数 千 万 台 安 装 Linux 的 基础 ,那些 习惯 了 其 他 操作 系统 某 些 标准 特征 的 用 户 开 
始 期 望 Linux 也 具有 相同 的 特征 。 在 这 种 情况 下 ， 对 Linux 开 发 者 的 需求 也 在 不 断 增 加 。 
值得 庆幸 的 是 , 在 Linus 的 密切 指导 下 ，Linux 始终 在 不 断 发 展 以 满足 如 此 众多 的 需求 。 


注 4: 许多 商业 公司 已 经 开始 在 Linux 下 支持 他 们 的 产品 , 但 其 大 部 产品 并 不 是 在 GNU 许 可 证 
下 发 布 的 ， 因 此 ， 可 能 不 允许 你 阅读 或 修改 他 们 的 源 代 码 。 


2 和 说 


硬件 的 依赖 性 


Linux 试图 在 硬件 无 关 的 源 代 码 与 硬件 相关 的 源 代 码 之 间 保 持 清晰 的 界限 。 为 了 做 到 这 
点, 在 arch 和 include 目 录 下 包含 了 23 个 子 目 录 , 以 对 应 Linux 所 支持 的 不 同 硬件 平台 。 
这 些 平台 的 标准 名 字 如 下 : 


alpha 
HP 的 Alpha 工作 站 ， 最 早 属 于 Digital 公司 ， 后 来 属于 Compag 公司 , 现在 不 再 生 
产 )。 
arm, arm26 
基于 ARM 处 理 器 的 计算 机 (如 PDA) 和 全 入 式 设备 。 
Cris 
Axis 在 它 的 瘦 服 务 器 中 使 用 的 “代码 精简 指令 集 (Code Reduced Instruction Set)” 
CPU， 用 在 诸如 Web 摄像 机 或 开发 主板 中 。 
frv 
基于 Fujitsu FR-V 系列 微 处 理 器 的 做 入 式 系统 。 
h8300 
Hitachi h8/300 和 hg8s 的 8 位 和 16 位 RISC 微 处 理 器 。 
i386 | 
基于 80x86 微 处 理 器 的 1BM 兼容 个 人 计算 机 。 
ia04 
基于 64 位 ltanium 微 处 理 器 的 工作 站 。 
m32r 
基于 Renesas M32R 系列 微 处 理 器 的 计算 机 。 
m6Os8k, moOS8knommu 
基于 Motorola MC680x0 微 处 理 器 的 个 人 计算 机 。 
mips 
基于 MIPS 微 处 理 器 的 工作 站 ， 如 Silicon Graphics 公司 销售 的 那些 工作 站 。 
parisc 


基于 HP 公司 HP 9000 PA-RISC 微 处 理 器 的 工作 站 。 


ppc,ppco4 
基于 Motorola-1 BM PowerPC32 位 和 64 位 微 处 理 器 的 工作 站 。 
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s390 
IBM ESA/390 及 zSeries 大 型 机 。 


sh, sho4 
基于 Hitachi 和 STMicroelectronics 联合 开发 的 SuperH 微 处理 器 的 能 入 式 系统 。 


sparc, sparcO4 


基于 Sun 公司 SPARC 和 64 位 Ultra SPARC 微 处 理 器 的 工作 站 。 


um 


用 户 态 的 Linux 


v850 
集成 了 基于 Harvard 体系 结构 的 32 位 RISC 核心 的 NEC V850 微 控 制 器 。 


X806_64 
基于 AMD 的 64 位 微 处 理 器 的 工作 站 ,如 Athlon 和 Opteron, 以 及 基于 Intel 的 ia32e/ 
EM64T64 位 微 处 理 器 的 工作 站 。 


Linux 版 本 


一 直到 2.5 版 本 的 内 核 , Linux 都 通过 简单 的 编号 来 区 别 内 核 的 稳定 版 和 开发 版 。 每 个 版 
本 号 用 三 个 数字 描述 ,由 圆 点 分 隔 。 前 两 个 数字 用 来 表示 版 本 号 ,第 三 个 数字 表示 发 布 
号 。 第 一 位 版 本 号 2 从 1996 年 开始 就 没有 变 过 。 第 二 位 版 本 号 表示 内 核 的 类 型 : 如 果 为 
偶数 ， 表 示 稳 定 的 内 核 ， 否 则 ， 表 示 开 发 中 的 内 核 。 


正如 内 核 版 本 名 字 所 表示 的 ,稳定 版 本 的 内 核 由 Linux 的 发 布 者 和 内 核 墨客 彻底 检查 过 ， 
一 个 稳定 版 的 新 发 布 主 要 用 来 纠正 用 户 所 报告 的 错误 或 者 增加 新 的 驱动 程序 。 另 一 方面 ， 
开发 版 的 不 同 版 本 之 间 可 能 有 非常 明显 的 差异 。 内 核 开 发 者 可 以 自由 地 采用 不 同方 案 进 
行 实验 , 但 这 些 实验 可 能 导致 内 核 有 很 大 变化 。 用 开发 版 运行 应 用 程序 的 用 户 ， 当 把 内 
核 升 级 到 新 版 时 ， 也 许 会 遇 到 一 些 不 那么 令 人 愉快 的 意外 。 


然而 ， 在 Linux 内 核 2.6 版 的 开发 过 程 中 ， 内 核 版 本 的 编号 方式 发 生 了 很 大 的 变化 。 主 
要 变化 在 于 第 二 个 数字 已 经 不 再 用 于 表示 一 个 内 核 是 稳定 版 本 还 是 正在 开发 的 版 本 。 因 
此 ， 现 在 内 核 开 发 者 都 在 当前 的 2.6 版 本 中 对 内 核 进行 大 幅 改 进 。 只 有 在 内 核 开发 者 必 
须 对 内 核 的 重大 修改 进行 油 试 时 , 才 会 采用 一 个 新 的 内 核 分 支 2.7。 这 种 2.7 的 分 支 要 么 
产生 一 个 新 的 内 核 版 本 ， 要 么 干脆 丢弃 所 修改 的 部 分 而 回 退 到 2.6 版 。 


Linux 这 种 新 的 开发 模式 章 味 着 两 种 内 核 具 有 相同 的 版 本 号 ， 但 却 有 不 同 的 发 布 号 ， 如 
2.6.10 和 2.6.11 内 核 就 可 能 在 核心 部 件 和 基本 算法 上 有 很 大 的 差别 。 这 样 一 来 ， 具 有 新 





一 个 允许 开发 者 在 用 户 态 下 运行 内 核 的 虚拟 平台 。 
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发 布 号 的 内 核 可 能 潜藏 着 不 稳定 性 和 各 种 错误 。 为 了 解决 这 个 问题 , 内 核 开 发 者 可 能 发 
布 带 有 补丁 程序 的 内 核 版 本 ， 并 且 用 第 四 位 数字 表示 带 有 不 同 补丁 的 内 核 版 本 。 例 如 ， 
在 写本 段 文字 时 ， 最 新 的 稳定 内 核 版 本 是 2.6.11.12。 


必须 强调 的 是 本 书 描述 的 是 Linux2.6.11 版 的 内 核 。 


操作 系统 基本 概念 


任何 计算 机 系统 都 包含 一 个 名 为 操作 系统 的 基本 程序 集合 。 在 这 个 集合 里 , 最 重要 的 程 
序 称 为 内 核 (kernel) 。 当 操作 系统 启动 时 ， 内 核 被 装 入 到 RAM 中 ， 内 核 中 包含 了 系统 
运行 所 必 不 可 少 的 很 多 核心 过 程 (procedure)。 其 他 程序 是 一 些 不 太 重 要 的 实用 程序 ， 
尽管 这 些 程序 为 用 户 提供 了 与 计算 机 进行 广泛 交流 的 经 验 ( 以 及 用 户 买 计算 机 要 做 的 所 
有 工作 ), 但 系统 根本 的 样子 和 能 力 还 是 由 内 核 决 定 。 内 核 也 为 系统 中 所 有 事情 提供 了 
主要 功能 ， 并 决定 高 层 软 件 的 很 多 特性 。 因 此 ， 我们 将 经 常 使 用 术语 “操作 系统 ”作为 
“内 核 ”的 同义词 。 


操作 系统 必须 完成 两 个 主要 目标 : 


。 与 硬件 部 分 交互 ， 为 包含 在 硬件 平台 上 的 所 有 低层 可 编程 部 件 提 供 服务 。 
。 ”为 运行 在 计算 机 系统 上 的 应 用 程序 ( 即 所 谓 用 户 程序 ) 提供 执行 环境 。 


一 些 操作 系统 允许 所 有 的 用 户 程 序 都 直接 与 硬件 部 分 进行 交互 (典型 的 例子 是 MS- 
DOS )。 与 此 相反 , 类 Unix 操作 系统 把 与 计算 机 物理 组 织 相 关 的 所 有 低层 细节 都 对 用 户 
运行 的 程序 隐藏 起 来 。 当 程序 想 使 用 硬件 资源 时 , 必须 向 操作 系统 发 出 一 个 请 求 。 内核 
对 这 个 请 求 进行 评估 ， 如果 人 允许 使 用 这 个 资源 , 那么 内核 代 表 应 用 程序 与 相关 的 硬件 
部 分 进行 交互 。 


为 了 实施 这 种 机 制 ,现代 操作 系统 依靠 特殊 的 硬件 特性 来 禁止 用 户 程 序 直 接 与 低层 硬件 
部 分 进行 交互 , 或 者 禁止 直接 访问 任意 的 物理 地 址 。 特别 是 , 硬件 为 CPU 引入 了 至 少 两 
种 不 同 的 执行 模式 : 用 户 程 序 的 非特 权 模 式 和 内 核 的 特权 模式 。 Unix 把 它们 分 别称 为 用 
户 态 (User Mode) 和 内 核 态 (Kernel Mode ) 。 


我 们 将 在 本 章 剩余 部 分 介绍 一 些 基本 概念 , 在 过 去 的 20 多 年 里 , 这 些 概念 推动 了 Unix.、 
Linux 和 其 他 操作 系统 的 设计 。 作 为 Linux 用 户 ， 你 也 许 已 热 悉 了 这 些 概念 ， 但 为 了 说 
明 这 些 概念 对 Linux 内 核 的 必要 性 ， 下 面试 图 对 其 作 更 深 一 步 的 研究 。 这 些 广 证 的 孝 上 处 
事实 上 涉及 到 全 部 类 Unix 系统 。 和 希望 本 书 的 其 他 章节 能 帮助 你 理解 Linux 内 核 内 夭 。 
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多 用 户 系 统 


多 用 户 系统 (multiuser system) 就 是 一 台 能 并 发 和 独立 地 执行 分 别 属于 两 个 或 多 个 用 户 
的 若干 应 用 程序 的 计算 机 。" 并 发 "(concurrenitly) 意味 着 几 个 应 用 程序 能 同时 处 于 活动 
状态 并 竞争 各 种 资源 ， 如 CPU、 内 存 、 硬 盘 等 等 。“ 独 立 ”(independently) 意味 着 每 个 
应 用 程序 能 执行 自己 的 任务 , 而 无 需 考 虑 其 他 用 户 的 应 用 程序 在 干 些 什么 。 当 然 ， 从 一 
个 应 用 程序 切换 到 另 一 个 会 使 每 个 应 用 程序 的 速度 有 所 减 慢 , 从 而 影响 用 户 看 到 的 响应 
时间 。 现代 操作 系统 内 核 提 供 的 许多 复杂 特性 (我 们 将 在 本 书 中 考察 这 些 特性 ) 减少 了 
强加 在 每 个 程序 上 的 延迟 时 间 ， 给 用 户 提供 了 尽 可 能 快 的 响应 时 间 。 


多 用 户 操 作 系 统 必 须 包 含 以 下 几 个 特 后 : 


。 ”核实 用 户 身份 的 认证 机 制 。 

。 ”防止 有 错误 的 用 户 程 序 防 碍 其 他 应 用 程序 在 系统 中 运行 的 保护 机 制 。 
。 ”防止 有 恶意 的 用 户 程序 干涉 或 瘟 视 其 他 用 户 的 活动 的 保护 机 制 。 

。 ”限制 分 配给 每 个 用 户 的 资源 数 的 计 账 机 制 。 


为 了 确保 能 实现 这 些 安全 保护 机 制 , 操 作 系统 必须 利用 与 CPU 特权 模式 相关 的 硬件 保护 
机 制 , 否则 , 用 户 程序 将 能 直接 访问 系统 电路 并 克服 强加 于 它 的 这 些 限制 。Unix 是 实施 
系统 资源 硬件 保护 的 多 用 户 系统 。 


用 尸 和 组 


在 多 用 户 系统 中 , 每 个 用 户 在 机 器 上 都 有 私 用 空间 ， 典型 地 , 他 拥有 一 定数 量 的 磁盘 空 
间 来 存储 文件 、 接收 私人 邮件 信息 等 等 。 操作 系统 必须 保证 用 户 空 间 的 私有 部 分 仅仅 对 
其 拥有 者 是 可 见 的 。 特别 是 必须 能 保证 , 没有 用 户 能 够 开发 一 个 用 于 侵犯 其 他 用 户 私有 
空间 的 系统 应 用 程序 。 


所 有 的 用 户 由 一 个 惟一 的 数字 来 标识 ， 这 个 数字 叫 用 户 标识 符 《Vser ID，UID)。 通常 
一 个 计算 机 系统 只 能 由 有 限 的 人 使 用 。 当 其 中 的 某 个 用 户 开始 一 个 工作 会 话 时 , 操作 系 
统 要 求 输入 一 个 登录 名 和 口令 , 如果 用 户 输入 的 信息 无 效 , 则 系统 把 绝 访问 。 因 为 口令 
是 不 公开 的 ， 所 以 用 户 的 保密 性 得 到 了 保证 。 


为 了 和 其 他 用 户 有 选择 地 共享 资料 , 每 个 用 户 是 一 个 或 多 个 用 户 组 的 一 名 成 员 , 组 由 唯 
一 的 用 户 组 标识 符 (user group ID) 标识 。 每 个 文件 也 恰好 与 一 个 组 相对 应 。 例 如 ， 可 
以 设置 这 样 的 访问 权限 , 拥有 文件 的 用 户 具有 对 文件 的 读 写 权限 , 同 组 用 户 仅 有 只 读 权 
限 ， 而 系统 中 的 其 他 用 户 没有 对 文件 的 任何 访问 权限 。 
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任何 类 Unix 操作 系统 都 有 一 个 特殊 的 用 户 ， 叫 做 roof， 即 超级 用 户 (superuser)。 系 统 
管理 员 必 须 以 root 的 身份 登录 ,以 便 处 理 用 户 账号 , 完成 诸如 系统 备份 、 程 序 升级 等 维 
护 任务 。root 用 户 几 乎 无 所 不 能 ， 因 为 操作 系统 对 她 不 使 用 通常 的 保护 机 制 。 尤 其 是 ， 
root 用 户 能 访问 系统 中 的 每 一 个 文件 ， 能 干涉 每 一 个 正在 执行 的 用 户 程序 的 活动 。 


进程 


所 有 的 操作 系统 都 使 用 一 种 基本 的 抽象 : 进程 (process)。 一 个 进程 可 以 定义 为 :“ 程 序 
执行 时 的 一 个 实例 ”, 或 者 一 个 运行 程序 的 “执行 上 下 文 "。 在 传统 的 操作 系统 中 ,一 个 
进程 在 地 址 空间 (address space) 中 执行 一 个 单独 的 指令 序列 。 地 址 空间 是 允许 进程 引 
用 的 内 存 地 址 集合 。 现代 操作 系统 爷 许 具有 多 个 执行 流 的 进程 ,也 就 是 说 , 在 相同 的 地 
址 空间 可 执行 多 个 指令 序列 。 


多 用 户 系 统 必 须 实施 一 种 执行 环境 , 在 这 种 环境 里 ， 几 个 进程 能 并 发 活动 ， 并 能 竞争 系 
统 资 源 (主要 是 CPU)。 人 允许 进程 并 发 活动 的 系统 称 为 多 道 程序 系统 
(multiprogramming) 或 多 处 理 系 统 (multiprocessing) ( 注 $)。 区 分 程序 和 进程 是 非常 
重要 的 : 几 个 进程 能 并 发 地 执行 同一 程序 ， 而 同一 个 进程 能 顺序 地 执行 几 个 程序 。 


在 单 处 理 器 系统 上 ， 只 有 一 个 进程 能 占用 CPU， 因 此 ， 在 某 一 时 刻 只 能 有 一 个 执行 流 。 
一 般 来 说 , CPU 的 个 数 总 是 有 限 的 , 因而 只 有 少数 几 个 进程 能 同时 执行 。 操 作 系统 中 叫 
做 调度 程序 (scheduler) 的 部 分 决定 哪个 进程 能 执行 。 一 些 操 作 系统 只 允许 有 非 抢 占 式 
(nonpreemptable) 进程 ， 这 就 意味 着 ， 只 有 当 进程 自愿 放弃 CPU 时 ， 调 度 程序 才 被 调 
用 。 但是， 多 用 户 系 统 中 的 进程 必须 是 抢占 式 的 (preemptable)， 操 作 系统 记录 下 每 个 
进程 占有 的 CPU 时 间 ， 并 周期 性 地 激活 调度 程序 。 


Unix 是 具有 抢占 式 进 程 的 多 处 理 操 作 系 统 。 即 使 没有 用 户 登录 , 没有 程序 运行 , 也 还 是 
有 有 几 个 系统 进程 在 监视 外 围 设备 。 尤 其 是 ， 有 几 个 进程 在 监听 系统 终端 等 待 用 户 登录 。 
当 用 户 输入 一 个 登录 名 , 监听 进程 就 运行 一 个 程序 来 验证 用 户 的 口令 。 如果 用 户 身 份 得 
到 证 实 , 那么 监听 进程 就 创建 另 一 个 进程 来 执行 shell, 此 时 在 shell 下 可 以 输入 命令 。 当 
一 个 图 形 化 界面 被 激活 时 , 有 一 个 进程 就 运行 窗口 管理 器 , 界面 上 的 每 个 窗口 通常 都 由 
一 个 单独 的 进程 来 执行 。 如果 用 户 创建 了 一 个 图 形 化 shell, 那么 , 一 个 进程 运行 图 形 化 
窗口 , 而 第 二 个 进程 运行 用 户 可 以 输入 命令 的 shell。 对 每 一 个 用 户 命令 , shell 进 程 都 创 
建 执行 相应 程序 的 另 一 个 进程 。 


类 Unix 操作 系统 采用 进程 /内 核 模式 。 每 个 进程 都 自 以 为 它 是 系统 中 唯一 的 进程 ， 可 以 
独占 操作 系统 所 提供 的 服务 。 只 要 进程 发 出 系统 调用 〈 即 对 内 核 提 出 请 求 ， 参 见 第 10 


注 5: 一 些 多 处 理 操作 系统 不 是 多 用 户 的 ， 其 中 一 个 例子 就 是 微软 公司 的 Windows 98。 
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章 )， 硬 件 就 会 把 特权 模式 由 用 户 态 变 成 内 核 态 ， 然 后 进程 以 非常 有 限 的 目的 开始 一 个 
内 核 过 程 的 执行 。 这 样 ， 操 作 系 统 在 进程 的 执行 上 下 文中 起 作用 ， 以 满足 进程 的 请 求 。 
一 旦 这 个 请 求 完全 得 到 满足 , 内 核 过 程 将 迫使 硬件 返回 到 用 户 态 , 然后 进程 从 系统 调用 
的 下 一 条 指令 继续 执行 。 


内 核 体 系 结构 


如 前 所 述 , 大 部 分 Unix 内 核 是 单 块 结构 : 每 一 个 内 核 层 都 被 集成 到 整个 内 核 程 序 中 , 并 
代表 当前 进程 在 内 核 态 下 运行 。 相反, 微 内 核 (microkernel) 操作 系统 只 需要 内 核 有 一 
个 很 小 的 函数 集 , 通常 包括 几 个 同步 原 语 、 一 个 简单 的 调度 程序 和 进程 间 通 信 机 制 。 运 
行 在 微 内 核 之 上 的 几 个 系统 进程 实现 从 前 操作 系统 级 实现 的 功能 , 如 内 存 分 配 程序 、 设 
备 驱 动 程序 、 系 统 调用 处 理 程序 等 等 。 


尽管 关于 操作 系统 的 学 术 研 究 都 是 面向 微 内 核 的 ,但 这 样 的 操作 系统 一 般 比 单 块 内 核 的 
效率 低 ， 因 为 操作 系统 不 同 层次 之 间 显 式 的 消息 传递 要 花费 一 定 的 代价 。 不过, 微 内 核 
操作 系统 比 单 块 内 核 有 一 定 的 理论 优势 . 微 内 核 操作 系统 迫使 系统 程序 员 采 用 模块 化 的 
方法 , 因为 任何 操作 系统 层 都 是 一 个 相对 独立 的 程序 , 这 种 程序 必须 通过 定义 明确 而 清 
晰 的 软件 接口 与 其 他 层 交 互 。 此 外 , 已 有 的 微 内 核 操 作 系统 可 以 很 容易 地 移植 到 其 他 的 
体系 结构 上 , 因为 所 有 与 硬件 相关 的 部 分 都 被 封装 进 微 内 核 代 码 中 。 最 后 ， 微 内 核 操 作 
系统 比 单 块 内 核 更 加 充分 地 利用 了 RAM ,因为 暂且 不 需要 执行 的 系统 进程 可 以 被 调 出 或 
撤消 。 


为 了 达到 微 内 核 理 论 上 的 很 多 优 后 而 又 不 影响 性 能 ，Linux 内 核 提供 了 模块 (module)。 
模块 是 一 个 目标 文件 , 其 代码 可 以 在 运行 时 链接 到 内 核 或 从 内 核 解 除 链接 。 这 种 目标 代 
码 通 常 由 一 组 消 数 组 成 ， 用 来 实现 文件 系统 、 驱 动 程序 或 其 他 内 核 上 层 功 能 。 与 微 内 核 
操作 系统 的 外 层 不 同 , 模块 不 是 作为 一 个 特殊 的 进程 执行 的 。 相反, 与 任何 其 他 静态 链 
接 的 内 核 函 数 一 样 ， 它 代表 当前 进程 在 内 核 态 下 执行 。 


使 用 模块 的 主要 优点 包括 : 


共 艾 化 方 落 
因为 任何 模块 都 可 以 在 运行 时 被 链接 或 解除 链接 , 因此, 系统 程序 员 必 须 提出 良 定 
义 的 软件 接口 以 访问 由 模块 处 理 的 数据 结构 。 这 使 得 开发 新 模块 变 得 容易 。 
平台 无 关 丛 
即使 模块 依赖 于 某 些 特殊 的 硬件 特 后 , 但 它 不 依赖 于 某 个 固定 的 硬件 平台 。 例如， 
符合 SCSI 标 准 的 磁盘 驱动 程序 模块 ， 在 IBM 兼容 PC 与 HP 的 Alpha 机 上 都 能 很 
好 地 工作 。 
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太 省 内 存 使 用 
当 需 要 模块 功能 时 , 把 它 链接 到 正在 运行 的 内 核 中 , 否则 , 将 该 模块 解除 链接 。 这 
种 机 制 对 于 小 型 做 入 式 系 统 是 非常 有 用 的 。 


无 码 能 规 失 
模块 的 目标 代码 一 旦 被 链接 到 内 核 ， 其 作用 与 静态 链接 的 内 核 的 目标 代码 完全 等 
价 。 因 此 ， 当 模块 的 函数 被 调用 时 ， 无 需 显 式 地 进行 消息 传递 ( 注 6)。 


Unix 文件 系统 概述 


Unix 操 作 系 统 的 设计 集中 反映 在 其 文件 系统 上 , 文件 系统 有 几 个 有 趣 的 特点 。 因 为 在 后 
面 的 章节 中 会 反复 提 到 这 些 特点 ， 所 以 我 们 先 回顾 最 重要 的 几 个 特点 。 


文件 


Unix 文件 是 以 字 节 序列 组 成 的 信息 载体 (coniainer)， 内 核 不 解释 文件 的 内 容 。 很 多 编 
程 的 库 洋 数 实现 了 更 高 级 的 抽象 ,例如 ,由 字段 构成 的 记录 以 及 基于 关键 字 编 址 的 记录 。 
然而 , 这些 库 中 的 程序 必须 依靠 内 核 提 供 的 系统 调用 。 从 用 户 的 观点 来 看 , 文件 被 组 织 
在 一 个 树 结构 的 命名 空间 中 ， 如 图 1-1 所 示 。 





图 1-1: 目录 树 示 例 


除了 叶 布 点 之 外 , 树 的 所 有 节点 都 表示 目录 名 。 目录 节点 包含 它 下 面 文件 及 目录 的 所 有 


注 6: 当 模 块 被 链接 或 被 解除 链接 时 ,性 能 稍 有 下 降 。 但 是 在 微 内 核 操 作 系 统 中 ， 系 统 进程 的 
创建 和 删除 也 是 这 样 的 。 
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信息 。 文 件 或 目录 名 由 除 “/” 和 空 字符 “\0” 之 外 的 任意 ASCIHI 字 符 序 列 组 成 ( 注 7)。 
大 多 数 文件 系统 对 文件 名 的 长 度 都 有 限制 , 通常 不 能 超过 255 个 字符。 与 树 的 根 相对 应 
的 目录 被 称 为 根 目录 (root directory)。 按 照 惯例 ， 它 的 名 字 是 “/”。 在 同一 目录 中 的 
文件 名 不 能 相同 ， 而 在 不 同 目录 中 的 文件 名 可 以 相同 。 


Unix 的 每 个 进程 都 有 一 个 当前 工作 目录 (参见 本 章 后 面 的 “进程 /内 核 模式 ”一 节 )， 
属于 进程 执行 上 下 文 (execution context)， 标识 出 进程 所 用 的 当前 目录 。 为 了 标识 个 
特定 的 文件 ,进程 使 用 路 径 名 (pcothname), 路 径 名 由 斜 杠 及 一 列 指向 文件 的 目录 名 交 
替 组 成 。 如 果 路 径 名 的 第 一 个 字符 是 斜 杠 ,那么 这 个 路 径 就 是 所 谓 的 绝对 路 径 ， 因 为 它 
的 起 点 是 根 目 录 。 否则， 如 果 第 一 项 是 目录 名 或 文件 名 ， 那么 这 个 路 径 就 是 所 谓 的 相对 
路 径 ， 因 为 它 的 起 点 是 进程 的 当前 目录 。 


当 标 识 文件 名 时 ， 也 用 符号 “.” 和 “… 。 它 们 分 别 标识 当前 工作 目录 和 父 目 录 。 如 果 
当前 工作 目录 是 根 目录 ,“.” 和 “..” 就 是 一 致 的 。 


硬 链接 和 软 链接 
包含 在 目录 中 的 文件 名 就 是 一 个 文件 的 硬 链接 (hard link)， 或 简称 链接 (Zink) 。 在 同 
一 目录 或 不 同 的 目录 中 ， 同 一 文件 可 以 有 几 个 链接 ， 因 此 对 应 几 个 文件 名 。 
Unix 合 令 : 
$ ln Pl P2 
用 来 创建 一 个 新 的 硬 链接 ， 即 为 由 路 径 P1 标识 的 文件 创建 一 个 路 径 名 为 P2 的 硬 链 接 。 
硬 链接 有 两 方面 的 限制 
。 ”不 允许 用 户 给 目录 创建 硬 链 接 。 因为 这 可 能 把 目录 树 变 为 环形 图 , 从 而 就 不 可 能 通 
过 名 字 定 位 一 个 文件 。 


。 “只 有 在 同一 文件 系统 中 的 文件 之 间 才 能 创建 链接 。 这 带 来 比较 大 的 限制 , 因为 现代 
Unix 系统 可 能 包含 了 多 种 文件 系统 , 这 些 文件 系统 位 于 不 同 的 磁盘 和 /或 分 区 , 用 
户 也 许 无 法 知道 它们 之 间 的 物理 划分 。 


为 了 克服 这 些 限制 ， 引 入 了 软 链接 (soft link)[ 也 称 符号 链接 (symbolic link)]。 符 
号 链接 是 短文 件 , 这 些 文 件 包含 有 男 一 个 文件 的 任意 一 个 路 径 名 。 路 径 名 可 以 指向 位 于 
任意 一 个 文件 系统 的 任意 文件 或 目录 ， 甚 至 可 以 指向 一 个 不 存在 的 文件 。 


注 7; 一 些 操作 系统 允许 以 多 种 字符 表 来 表示 文件 名 , 例如 Unicode, 基于 16 位 图 形 字符 的 扩 
展 编码 。 








Unix 命令 ， 
$ ln -s Pl P2 
创建 一 个 路 径 名 为 P2 的 新 软 链 接 ，P2 指向 路 径 名 P1。 当 这 个 命令 执行 时 , 文件 系统 抽 


出 P2 的 目录 部 分 , 并 在 那个 目录 下 创建 一 个 名 为 P2 的 符号 链接 类 型 的 新 项 。 这 个 新 文 
件 包含 路 径 名 P11。 这样， 任何 对 P2 的 引用 都 可 以 被 自动 转换 成 指向 P1 的 一 个 引用 。 


文件 类 型 
Unix 文件 可 以 是 下 列 类 型 之 一 : 


。 ”普通 文件 (regular file) 

。 目录 

。 ”符号 链接 

。 ”面向 块 的 设备 文件 (block-oriented device file) 
面向 字符 的 设备 文件 (character-oriented device file) 
管道 (pipe) 和 命名 管道 (named pipe) (也 叫 FIFO) 
。 ，” 套 接 字 (socket) 


前 三 种 文件 类 型 是 所 有 Unix 文件 系统 的 基本 类 型 。 其 实现 将 在 第 十 八 章 详细 讨论 。 
设备 文件 与 VO 设备 以 及 集成 到 内 核 中 的 设备 驱动 程序 相关 。 例 如 ， 当 程序 访问 设备 文 
件 时 ， 它 直接 访问 与 那个 文件 相关 的 WO 设备 (参见 第 十 三 章 )。 


管道 和 套 接 字 是 用 于 进程 间 通 信 的 特殊 文件 (参见 本 章 后 面 的 “同步 和 临界 区 ”一 节 
以 及 第 十 九 章 ) 。 


文件 描述 竺 与 索引 节点 


Unix 对 文件 的 内 容 和 描述 文件 的 信息 给 出 了 清楚 的 区 分 。 除 了 设备 文件 和 特殊 文件 系统 
文件 外 , 每 个 文件 都 由 字符 序列 组 成 。 文 件 内 容 不 包含 任何 控制 信息 ， 如 文件 长 度 或 文 
件 结 束 (end-of-file,EOF) 符 。 


文件 系统 处 理 文件 需要 的 所 有 信息 包含 在 一 个 名 为 索引 市 点 (inaode) 的 数据 结构 中 。 每 
个 文件 都 有 自己 的 索引 节点 ， 文 件 系 统 用 索引 布点 来 标识 文件 。 


虽然 文件 系统 及 内 核 铺 数 对 索引 市 点 的 处 理 可 能 随 Unix 系 统 的 不 同 有 很 大 的 差异 ,但 它 
们 必须 至 少 提供 在 POSIX 标准 中 指定 的 如 下 属性 ， 
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。 ”文件 类 型 (参见 前 一 市 ) 

。 ”与 文件 相关 的 硬 链接 个 数 

。 ”以 字 市 为 单位 的 文件 长 度 

。 ”设备 标识 符 ( 即 包含 文件 的 设备 的 标识 符 ) 

。 ”在 文件 系统 中 标识 文件 的 索引 市 点 号 

。 ”文件 拥有 者 的 UID 

。 ”文件 的 用 户 组 ID 

。 “ 几 个 时 间 惟 ， 表 示 索 引 节 反 状态 改变 的 时 间 、 节 后 访问 时 间 及 最 后 修改 时 间 
。 ”访问 权限 和 文件 模式 (参见 下 一 节 ) 


访问 权限 和 文件 模式 
文件 的 潜在 用 户 分 为 三 种 类 型 ， 


。 ”作为 文件 所 有 者 的 用 户 
。 ” 同 组 用 户 ， 不 包括 所 有 者 
。 ”所 有 剩 下 的 用 户 (其 他 ) 


有 三 种 类 型 的 访问 权限 一 一 读 、 写 及 执行 每 组 用 户 都 有 这 三 种 权限 。 因 此 , 文件 访问 权 
限 的 组 合 就 用 九 种 不 同 的 二 进 制 来 标记 。 还 有 三 种 附加 的 标记 ， 即 suid (Set User 1D)， 
sgid (Set Group ID)， 及 sticky 用 来 定义 文件 的 模式 。 当 这 些 标 记 应 用 到 可 执行 文件 时 
有 如 下 含义 : 


suid 
进程 执行 一 个 文件 时 通常 保持 进程 拥有 者 的 UID。 然 而 ， 如 果 设 置 了 可 执行 文件 
suid 的 标志 位 ， 进 程 就 获得 了 该 文件 拥有 者 的 UID。 

sglid 
进程 执行 一 个 文件 时 保持 进程 组 的 用 户 组 ID。 然 而 , 如 果 设 置 了 可 执行 文件 sgida 
的 标志 位 ， 进 程 就 获得 了 该 文件 用 户 组 的 ID。 

sticky 
设置 了 sticky 标志 位 的 可 执行 文件 相当 于 向 内 核发 出 一 个 请 求 ， 当 程序 执行 结 
束 以 后 ， 依 然 将 它 保留 在 内 存 ( 注 8)。 


注 8: ”这 个 标志 已 经 过 时 ， 现 在 使 用 基于 代码 页 共享 的 其 他 方法 (和 参见 第 九 章 )。 
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当 文 件 由 一 个 进程 创建 时 ,文件 拥有 者 的 ID 就 是 该 进程 的 UID。 而 其 用 户 组 1D 可 以 是 
进程 创建 者 的 ID， 也 可 以 是 父 目 录 的 ID， 这 取决 于 父 目录 sgid 标志 位 的 值 。 


文件 操作 的 系统 调用 


当 用 户 访问 一 个 普通 文件 或 目录 文件 的 内 容 时 ,他 实际 上 是 访问 存储 在 硬件 块 设 备 上 的 
一 些 数据 。 从 这 个 意义 上 说 , 文件 系统 是 硬盘 分 区 物理 组 织 的 用 户 级 视图 。 因 为 处 于 用 
户 态 的 进程 不 能 直接 与 低层 硬件 交互 ， 所 以 每 个 实际 的 文件 操作 必须 在 内 核 态 下 进行 。 
因此 ，Unix 操作 系统 定义 了 几 个 与 文件 操作 有 关 的 系统 调用 。 


所 有 Unix 内 核 都 对 硬件 块 设备 的 处 理 效率 给 予 极 大 关注 ,其 目的 是 为 了 获得 非常 好 的 系 
统 整 体 性 能 。 在 后 面 的 章节 中 ， 我 们 将 描述 Linux 与 文件 操作 相关 的 主题 ， 尤 其 是 讨论 
内 核 如 何 对 文件 相关 的 系统 调用 作出 反应 。 为 了 理解 这 些 内 容 , 你 需要 知道 如 何 使 用 文 
件 操 作 的 主要 系统 调用 。 下 面 对 此 给 予 描述 。 


打开 文件 
进程 只 能 访问 “打开 的 ”文件 。 为 了 打开 一 个 文件 ， 进 程 调 用 系统 调用 : 


fd=open{({path, flag, mode) 
其 中 的 三 个 参数 具有 以 下 含义 : 
path 

表示 被 打开 文件 的 (相对 或 绝对 ) 路 径 。 
flag 


指定 文件 打开 的 方式 (例如 , 读 、 写 、 读 / 写 、 追加 )。 它 也 指定 是 否 应 当 创建 一 个 
不 存在 的 文件 。 


mode 


指定 新 创建 文件 的 访问 权限 。 


这 个 系统 调用 创建 一 个 “打开 文件 ” 对象， 并 返回 所 谓 文件 描述 符 (file descriptor) 的 
标识 To 一 个 打开 文件 对 象 包括 : 


。 ”文件 操作 的 一 些 数据 结构 , 如 指定 文件 打开 方式 的 一 组 标志 ;表示 文件 当前 位 置 的 
offset 字段 ， 从 这 个 位 置 开始 将 进行 下 一 个 操作 〈 即 所 谓 的 文件 指针 ) ， 等 等 。 


。 ”进程 可 以 调用 的 一 些 内 核 函 数 指针 。 这 组 允许 调用 的 函数 集合 由 参数 f1ag 的 值 决 
定 。 
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我 们 将 在 第 十 二 章 中 详细 讨论 打开 文件 对 象 。 在 这 里 , 我 们 仅 描述 一 些 POSIX 语 义 所 指 
定 的 一 般 特 性 : 


。 ”文件 描述 符 表 示 进 程 与 打开 文件 之 间 的 交互 ,而 打开 文件 对 象 包含 了 与 这 种 交互 相 
关 的 数据 。 同 一 打开 文件 对 象 也 许 由 同一 个 进程 中 的 几 个 文件 描述 符 标识 。 

。 ， 儿 个 进程 也 许 同 时 打开 同一 文件 。 在 这 种 情况 下 , 文件 系统 给 每 个 文件 分 配 一 个 单 
独 的 打开 文件 对 象 以 及 单独 的 文件 描述 符 。 当 这 种 情况 发 生 时 ，Unix 文件 系统 对 
进程 在 同一 文件 上 发 出 的 VO 操作 之 则 不 提供 任何 形式 的 同步 机 制 。 然而 ,， 有 几 个 
系统 调用 ， 如 fleck() ， 可 用 来 让 进程 在 整个 文件 或 部 分 文件 上 对 WO 操作 实施 
同步 (参见 第 十 二 章 )。 


为 了 创建 一 个 新 的 文件 ， 进 程 也 可 以 调用 create() 系统 调用 ， 它 与 open ( ) 非常 相 - 
似 ， 都 是 由 内 核 来 处 理 。 


访问 打开 的 文件 

对 普通 Unix 文件 ， 可 以 顺序 地 访问 ， 也 可 以 随机 地 访问 ， 而 对 设备 文件 和 命名 管道 文 
件 , 通常 只 能 顺序 地 访问 。 在 这 两 种 访问 方式 中 , 内核 把 文件 指针 存放 在 打开 文件 对 象 
中 ， 也 就 是 说 ， 当 前 位 置 就 是 下 一 次 进行 读 或 写 操作 的 位 置 。 


贤 序 访问 是 文件 的 默认 访问 方式 ， 即 read () 和 write() 系统 调用 总 是 从 文件 指针 的 
当前 位 置 开 始 读 或 写 。 为 了 修改 文件 指针 的 值 ， 必 须 在 程序 中 显 式 地 调用 lseek() 系 
统 调用 。 当 打开 文件 时 ， 内 核 让 文件 指针 指向 文件 的 第 一 个 字 市 ( 偏 移 量 为 0)。 


] seek () 系统 调用 需要 下 列 参 数 : 


newoffset=lseek(fd, offset, whence):; 


其 参数 含义 如 下 : 


fd 
表示 打开 文件 的 文件 描述 符 。 

offset 
指定 一 个 有 符号 整数 值 ， 用 来 计算 文件 指针 的 新 位 置 。 

whence 
指定 文件 指针 新 位 置 的 计算 方式 : 可 以 是 offset 加 0, 表示 文件 指针 从 文件 头 移动 ， 
也 可 以 是 offset 加 文件 指针 的 当前 位 置 , 表示 文件 指针 从 当前 位 置 移动 ; 还 可 以 是 
offset 加 文件 最 后 一 个 字 市 的 位 置 ， 表 示 文 件 指针 从 文件 末尾 开始 移动 。 
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read ( ) 系统 调用 需要 以 下 参数 : 


nread= readitfd, buf, count).; 
其 参数 含义 如 下 : 
fd 
表示 打开 文件 的 文件 描述 符 。 
buf 
指定 在 进程 地 址 空间 中 缓 促 区 的 地 址 ， 所 读 的 数据 就 放 在 这 个 缓冲 区 ， 
COUNt 


表示 所 读 的 字 布 数 。 


当 处 理 这 样 的 系统 调用 时 ， 站 核 会 尝试 从 拥有 文件 撕 述 竺 6 的 文件 中 站 counc 下 
其 起 始 位 置 为 打开 文件 的 offset 字段 的 当前 值 。 在 某 些 情 况 下 可 能 遇 到 文件 结束 、 空 管 

道 等 等 ， 因 此 内 核 无 法 成 功 地 读 出 全 部 count 个 字 市 。 返 回 的 nread 值 就 是 实际 所 读 
的 字 节 数 。 给 原来 的 值 加 上 nread 就 会 更 新 文件 指针 。write() 的 参数 与 read() 相 似 。 


关闭 文件 
当 进 程 无 需 再 访问 文件 的 内 容 时 ， 就 调用 系统 调用 : 


res=closet{tfd):; 


冬 放 文件 描述 符 fa 相对 应 的 打开 文件 对 象 。 当 一 个 进程 终止 时 ， 内 核 会 关闭 其 所 有 
仍然 打开 着 的 文件 。 


更 名 及 删除 文件 


要 重新 命名 或 删除 一 个 文件 时 ,进程 不 需要 打开 它 。 实 际 上 , 这 样 的 操作 并 没有 对 这 个 
文件 的 内 容 起 作用 ， 而 是 对 一 个 或 多 个 目录 的 内 容 起 作用 。 例 如 ， 系 统 调 用 


res= rename (oldpath, newpath)}, 


改变 了 文件 链接 的 名 字 ， 而 系统 调用 : 


res= unlink (pathname}):; 


减少 了 文件 链接 数 ， 删 除了 相应 的 目录 项 。 只 有 当 链 接 数 为 0 时 ， 文件 才 被 真正 删除 。 
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Unix 内 核 概 述 


Unix 内核 提供 了 应 用 程序 可 以 运行 的 执行 环境 。 因 此 , 内 核 必须 实现 一 组 服务 及 相应 的 
接口 。 应 用 程序 使 用 这 些 接口 ， 而 且 通 常 不 会 与 硬件 资源 直接 交互 。 


进程 / 内核 模式 


如 前 所 述 ,， CPU 既 可 以 运行 在 用 户 态 下 , 也 可 以 运行 在 内 核 态 下 。 实际 上 , 一些 CPU 可 
以 有 两 种 以 上 的 执行 状态 。 例 如 ，Intel 80x86 微 处 理 器 有 四 种 不 同 的 执行 状态 。 但 是 ， 
所 有 标准 的 Unix 内 核 都 仅仅 利用 了 内 核 态 和 用 户 态 。 


当 一 个 程序 在 用 户 态 下 执行 时 ， 它 不 能 直接 访问 内 核 数据 结构 或 内 核 的 程序 。 然 而 , 当 
应 用 程序 在 内 核 态 下 运行 时 , 这 些 限制 不 再 有 效 。 每 种 CPU 模 型 都 为 从 用 户 态 到 内 核 态 
的 转换 提供 了 特殊 的 指令 ， 反 之 亦 然 。 一 个 程序 执行 时 ， 大 部 分 时 间 都 处 在 用 户 态 下 ， 
只 有 需要 内 核 所 提供 的 服务 时 才 切 换 到 内 核 态 。 当 内 核 满足 了 用 户 程 序 的 请 求 后 , 它 让 
程序 又 回 到 用 户 态 下 。 


进程 是 动态 的 实体 , 在 系统 内 通常 只 有 有 限 的 生存 期 。 创建 、 撤 消 及 同步 现 有 进程 的 任 
务 都 委托 给 内 核 中 的 一 组 例 程 来 完成 。 


内 核 本 身 并 不 是 一 个 进程 ， 而 是 进程 的 管理 者 。 进 程 /内 核 模 式 假定 : 请 求 内 核 服务 的 
进程 使 用 所 谓 系统 调用 (system call) 的 特殊 编程 机 制 。 每 个 系统 调用 都 设置 了 一 组 识 
别 进 程 请 求 的 参数 ， 然 后 执行 与 硬件 相关 的 CPU 指令 完成 从 用 户 态 到 内 核 态 的 转换 。 


除 用 户 进程 之 外 ，Unix 系 统 还 包括 几 个 所 谓 内 核 线程 (kernel thread) 的 特权 进程 (被 
赋予 特殊 权限 的 进程 )， 它 们 具有 以 下 特点 : 


。 它们 以 内 核 态 运 行 在 内 核 地 址 空间 。 
。 ”它们 不 与 用 户 直 接 交 互 ， 因 此 不 需要 终端 设备 。 
。 ”它们 通常 在 系统 启动 时 创建 ， 然 后 一 直 处 于 活跃 状态 直到 系统 关闭 。 


在 单 处 理 器 系统 中 , 任何 时 候 只 有 一 个 进程 在 运行 ， 它 要 么 处 于 用 户 态 ， 要么 处 于 内 核 
态 。 如 果 进 程 运 行 在 内 核 态 ， 处 理 器 就 执行 一 些 内 核 例 程 。 图 1-2 举例 说 明了 用 户 态 与 
内 核 态 之 间 的 相互 转换 。 处 于 用 户 态 的 进程 1 发 出 系统 调用 之 后 ， 进 程 切换 到 内 核 态 ， 
系统 调用 被 执行 。 然 后 ， 直 到 发 生 定时 中 断 且 调度 程序 在 内 核 态 被 激活 ， 进 程 1 才 恢 复 
在 用 户 态 下 执行 。 进 程 切 换 发 生 ， 进 程 2 在 用 户 态 开始 执行 ， 直 到 硬件 设备 发 出 中 断 请 
求 。 中 断 的 结果 是 ， 进 程 2 切换 到 内 核 态 并 处 理 中 断 。 
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Unix 内 核 做 的 工作 远 不 止 处 理 系统 调用 。 实 际 上 ， 可 以 有 几 种 方式 激活 内 核 例 程 : 


。 ”进程 调用 系统 调用 。 


。 “正在 执行 进程 的 CPU 发 出 一 个 异常 (exception) 信和 号， 异常 是 一 些 反常 情况 ， 例 
如 一 个 无 效 的 指令 。 内 核 代表 产生 异常 的 进程 处 理 异常 。 





1-2: 用 户 态 与 内 核 态 之 间 的 转换 


。 “外围 设备 向 CPU 发 出 一 个 中 断 (interrupt) 信号 以 通知 一 个 事件 的 发 生 , 如 一 个 要 
求 注意 的 请 求 、 一 个 状态 的 变化 或 一 个 IO 操作 已 经 完成 等 。 每 个 中 断 信和 号 都 是 由 
内 核 中 的 中 断 处 理 程序 (interrupt handler) 来 处 理 的 。 因 为 外 围 设备 与 CPU 异步 
操作 ， 因 此 ， 中 断 在 不 可 预知 的 时 间 发 生 。 


。 ”内 核 线程 被 执行 。 因 为 内 核 线程 运行 在 内 核 态 , 因此 必须 认为 其 相应 程序 是 内 核 的 
一 部 分 。 


进程 实现 


为 了 让 内 核 管 理 进程 ， 每 个 进程 由 一 个 进程 描述 符 (process descriptor) 表示 ， 这 个 描 
述 符 包含 有 关 进 程 当 前 状态 的 信息 。 


当 内 核 暂 停 一 个 进程 的 执行 时 ,就 把 几 个 相关 处 理 器 寄存 器 的 内 容 保 存在 进程 描述 符 中 。 
这 些 寄存 器 包括 : 


。 ”程序 计数 器 (PC) 和 栈 指针 (SP) 寄存 器 
。 ”通用 寄存 器 
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。 ”学 点 寄存 器 
。 ”包含 CPU 状态 信息 的 处 理 器 控制 寄存 器 (处理 器 状态 字 ，Processor Status Word ) 
。 ”用 来 跟踪 进程 对 RAM 访问 的 内 存 管理 寄存 器 


当 内 核 决定 恢复 执行 一 个 进程 时 , 它 用 进程 描述 符 中 合适 的 字段 来 装载 CPU 寄存 器 。 因 
为 程序 计数 器 中 所 存 的 值 指向 下 一 条 将 要 执行 的 指令 ,所 以 进程 从 它 停止 的 地 方 恢复 执 
行 。 

当 一 个 进程 不 在 CPU 上 执行 时 ， 它 正在 等 待 某 一 事件 。Unix 内 核 可 以 区 分 很 多 等 待 状 
态 ， 这 些 等 待 状态 通常 由 进程 描述 符 队列 实现 。 每 个 (可 能 为 空 ) 队列 对 应 一 组 等 待 特 
定 事件 的 进程 。 


可 重 入 内 核 


所 有 的 Unix 内 核 都 是 可 重 入 的 (reentrant), 这 意味 着 若干 个 进程 可 以 同时 在 内 核 态 下 
执行 。 当 然 , 在 单 处 理 器 系统 上 只 有 一 个 进程 在 真正 运行 , 但 是 有 许多 进程 可 能 在 等 待 
CPU 或 某 一 LO 操作 完成 时 在 内 核 态 下 被 阻塞 。 例 如 ， 当 内 核 代 表 某 一 进程 发 出 一 个 读 
磁盘 请 求 后 ,就 让 磁盘 控制 器 处 理 这 个 请 求 并 且 恢 复 执 行 其 他 进程 。 当 设备 满足 了 读 请 
求 时 ， 有 一 个 中 断 就 会 通知 内 核 ， 从 而 以 前 的 进程 可 以 恢复 执行 。 


提供 可 重信 的 一 种 方式 是 编写 国 数 , 以 便 这 些 函 数 只 能 修改 局 部 变量 , 而 不 能 改变 全 局 
数据 结构 , 这 样 的 函数 叫 可 重信 国 数 。 但 是 可 重 入 内 核 不 仅仅 局 限于 这 样 的 可 重信 国 数 
(尽管 一 些 实时 内 核 正 是 如 此 实现 的 ) 。 相 反 ， 可 重 和 人 内核 可 以 包含 非 重 人 国 数 ,并 且 利 
用 锁 机 制 保证 一 次 只 有 一 个 进程 执行 一 个 非 重 入 函数 。 


如 果 一 个 硬件 中 断 发 生 , 可 重 入 内 核能 挂 起 当前 正在 执行 的 进程 , 即使 这 个 进程 处 于 内 
核 态 。 这 种 能 力 是 非常 重要 的 ,因为 这 能 提高 发 出 中 断 的 设备 控制 器 的 吞吐 有 量 。 一 旦 设 
备 已 发 出 一 个 中 断 ， 它 就 一 直 等 待 直 到 CPU 应 答 它 为 止 。 如 果 内 核能 够 快速 应 答 , 设备 
控制 器 在 CPU 处 理 中 断 时 就 能 执行 其 他 任务 。 


现在 ， 让 我 们 看 一 下 内 核 的 可 重信 性 及 它 对 内 核 组 织 的 影响 。 内 核 控 制 路 径 (kernel 
control path) 表示 内 核 处 理 系 统 调用 、 异 常 或 中 断 所 执行 的 指令 序列 。 


在 最 简单 的 情况 下 ，CPU 从 第 一 条 指令 到 最 后 一 条 指令 顺序 地 执行 内 核 控 制 路 径 。 然 
而 ， 当 下 述 事件 之 一 发 生 时 ，CPU 交错 执行 内 核 控制 路 径 : 


。 ”运行 在 用 户 态 下 的 进程 调用 一 个 系统 调用 ,而 相应 的 内 核 控 制 路 径 证 实 这 个 请 求 无 
法 立即 得 到 满足 ， 然 后， 内 核 控 制 路 径 调用 调度 程序 选择 一 个 新 的 进程 投入 运行 。 
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结果 ， 进 程 切换 发 生 。 第 一 个 内 核 控制 路 径 还 没完 成 ， 而 CPU 又 重新 开始 执行 其 
他 的 内 核 控制 路 径 。 在 这 种 情况 下 ， 两 条 控制 路 径 代 表 两 个 不 同 的 进程 在 执行 。 


当 运 行 一 个 内 核 控 制 路 径 时 ，CPU 检测 到 一 个 异常 (例如, 访问 一 个 不 在 RAM 中 
的 页 )。 第 一 个 控制 路 径 被 挂 起 ,而 CPU 开始 执行 合适 的 过 程 。 在 我 们 的 例子 中 ， 
这 种 过 程 能 给 进程 分 配 一 个 新 页 , 并 从 磁盘 读 它 的 内 容 。 当 这 个 过 程 结束 时 , 第 一 
个 控制 路 径 可 以 恢复 执行 。 在 这 种 情况 下 ,两 个 控制 路 径 代 表 同 一 个 进程 在 执行 。 
当 CPU 正在 运行 一 个 局 用 了 中 断 的 内 核 控制 路 径 时 ， 一 个 硬件 中 断 发 生 。 第 一 个 
内 核 控制 路 径 还 没 执行 完 , CPU 开始 执行 男 一 个 内 核 控制 路 径 来 处 理 这 个 中 断 。 当 
这 个 中 断 处 理 程序 终止 时 , 第 一 个 内 核 控制 路 径 恢 复 。 在 这 种 情况 下 , 两 个 内 核 控 
制 路 径 运 行 在 同一 进程 的 可 执行 上 下 文中 ， 所 花费 的 系统 CPU 时 间 都 算 给 这 个 进 
程 。 然 而 ， 中 断 处 理 程序 无 需 代表 这 个 进程 运行 。 


在 支持 抢占 式 调度 的 内 核 中 , CPU 正 在 运行 , 而 一 个 更 高 优先 级 的 进程 加 入 就 绪 队 
列 , 则 中 断 发 生 。 在 这 种 情况 下 , 第 一 个 内 核 控制 路 径 还 没有 执行 完 ，CPU 代表 高 
优先 级 进程 又 开始 执行 另 一 个 内 核 控制 路 径 . 只 有 把 内 核 编译 成 支持 抢占 式 调度 之 
后 ， 才 可 能 出 现 这 种 情况 。 


图 1-3 显示 了 非 交 错 的 和 交错 的 内 核 控 制 路 径 的 几 个 例子 。 考 虑 以 下 三 种 不 同 的 CPU 状 


在 用 户 态 下 运行 一 个 进程 (User) 
运行 一 个 异常 处 理 程序 或 系统 调用 处 理 程序 (Excp) 
运行 一 个 中 断 处 理 程序 (Intr) 





图 1-3: 内 核 控 制 路 径 的 交错 执行 
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进程 地 址 空间 
每 个 进程 运行 在 它 的 私有 地 址 空间 。 在 用 户 态 下 运行 的 进程 涉及 到 私有 栈 、 数 据 区 和 代 
码 区 。 当 在 内 核 态 运行 时 ， 进 程 访问 内 核 的 数据 区 和 代码 区 ， 但 使 用 另外 的 私有 本。 


因为 内 核 是 可 重 入 的 , 因此 几 个 内 核 控 制 路 径 (每 个 都 与 不 同 的 进程 相关 ) 可 以 轮流 执 
行 。 在 这 种 情况 下 ， 每 个 内 核 控 制 路 径 都 引用 它 自己 的 私有 内 核 栈 。 


尽管 看 起 来 每 个 进程 访问 一 个 私有 地 址 空间 , 但 有 时 进程 之 间 也 共享 部 分 地 址 空间 。 在 
一 些 情况 下 , 这 种 共享 由 进程 显 式 地 提出 ; 在 另外 一 些 情况 下 ,由 内 核 自 动 完成 共享 以 
节约 内 存 。 


如 果 同一 个 程序 (比如 说 编辑 程序 ) 由 几 个 用 户 同时 使 用 , 则 这 个 程序 只 被 装 入 内 存 一 
次 ,其 指令 由 所 有 需要 它 的 用 户 共享 。 当 然 ， 其 数据 不 被 共享 ， 因 为 每 个 用 户 将 有 独立 
的 数据 。 这 种 共享 的 地 址 空间 由 内 核 自动 完成 以 节省 内 存 。 


进程 间 也 能 共享 部 分 地 址 空间 ， 以 实现 一 种 进程 间 通 信 ， 这 就 是 由 System V 引入 并 且 
已 经 被 Linux 支持 的 “共享 内 存 ” 技 术 。 


最 后 ，Linux 支持 mmap () 系统 调用 ,该 系统 调用 允许 存放 在 块 设备 上 的 文件 或 信息 的 
一 部 分 映射 到 进程 的 部 分 地 址 空间 ,内 存 上 映射 为 正常 的 读 写 传送 数据 方式 提供 了 另 一 种 
选择 。 如 果 同 一 文件 由 几 个 进程 共享 , 那么 共享 它 的 每 个 进程 地 址 空间 都 包含 有 它 的 内 
存 映射 。 


同步 和 临界 区 

实现 可 重 入 内 核 需 要 利用 同步 机 制 : 如 果 内 核 控制 路 径 对 某 个 内 核 数据 结构 进行 操作 时 被 
挂 起 , 那么 , 其 他 的 内 核 控制 路 径 就 不 应 当 再 对 该 数据 结构 进行 操作 , 除非 它 已 被 重新 设 
署 成 一 致 性 (consistent) 状态 。 否 则 ， 两 个 控制 路 径 的 交互 作用 将 破坏 所 存储 的 信息 。 


例如 , 假设 全 局 变量 V 包含 某 个 系统 资源 的 可 用 项 数 。 第 一 个 内 核 控制 路 径 A 读 这 个 变 
量 ， 并 且 确 定 仅 有 一 个 可 用 资源 项 。 这 时 ， 另 一 个 内 核 控制 路 径 B 被 激活 ， 并 读 同 一 个 
变量 YV，YV 的 值 仍 为 1。 因此, B 对 V 减 1， 并 开始 用 这 个 资源 项 。 然后 ,A 恢复 执行 。 
为 A 已 经 读 到 V 的 值 , 于 是 它 假定 自己 可 以 对 V 减 1 并 获取 B 已 经 在 使 用 的 这 个 资源 项 。 
结果 ，YV 的 值 变 为 -1， 两 个 内 核 控 制 路 径 使 用 相同 的 资源 项 有 可 能 导致 灾难 性 的 后 果 。 


当 某 个 计算 结果 取决 于 如 何 调度 两 个 或 多 个 进程 时 ,相关 代码 就 是 不 正确 的 。 我 们 说 存 
在 一 种 竞争 条 件 (race condition ) 。 
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一 般 来 说 ， 对 全 局 变量 的 安全 访问 通过 原子 操作 (atomic operation) 来 保证 。 在 前 面 
的 例子 中 ， 如 果 两 个 控制 路 径 读 V 并 减 1 是 一 个 单独 的 、 不 可 中 断 的 操作 ， 那 么 ， 就 不 
可 能 出 现 数据 这 误 。 然 而 ， 内 核 包含 的 很 多 数据 结构 是 无 法 用 单一 操作 访问 的 。 例 如 ， 
用 单一 的 操作 从 链表 中 删除 一 个 元 素 是 不 可 能 的 , 因为 内 核 一 次 至 少 访问 两 个 指针 。 临 
界 区 (crirical region) 是 这 样 的 一 段 代码 , 进入 这 段 代 码 的 进程 必须 完成 ,之 后 另 一 个 
进程 才能 进入 〈 注 9)。 


这 些 问 题 不 仅 出 现在 内 核 控 制 路 径 之 间 , 也 出 现在 共享 公共 数据 的 进程 之 间 。 几 种 同步 
技术 已 经 被 采用 。 以 下 将 集中 讨论 怎样 同步 内 核 控 制 路 径 。 


非 抢占 式 内 核 


在 寻找 彻底 、 简 单 地 解决 同步 问题 的 方案 中 , 大 多 数 传统 的 Unix 内 核 都 是 非 抢 占 式 的 : 
当 进 程 在 内 核 态 执行 时 ， 它 不 能 被 任意 挂 起 ， 也 不 能 被 另 一 个 进程 代替 。 因 此 ,在 单 处 
理 才 系统 上 , 中 断 或 异常 处 理 程序 不 能 修改 的 所 有 内 核 数 据 结构 ,内 核对 它们 的 访问 都 
是 安全 的 。 


当然 , 内 核 态 的 进程 能 自愿 放弃 CPU, 但 是 在 这 种 情况 下 , 它 必须 确保 所 有 的 数据 结构 
都 处 于 一 致 性 状态 。 此 外 ， 当 这 种 进程 恢复 执行 时 , 它 必须 重新 检查 以 前 访问 过 的 数据 
结构 的 值 ， 因 为 这 些 数据 结构 有 可 能 被 改变 。 


如 果 内 核 支 持 抢占 ,那么 在 应 用 同步 机 制 时 ,确保 进入 临界 区 前 禁止 抢占 ,退出 临界 区 
时 启用 抢占 。 


非 抢占 能 力 在 多 处 理 器 系统 上 是 低 效 的 ,因为 运行 在 不 同 CPU 上 的 两 个 内 核 控制 路 径 本 
可 以 并 发 地 访问 相同 的 数据 结构 。 


禁止 中 断 

单 处 理 器 系统 上 的 另 一 种 同步 机 制 是 : 在 进入 一 个 临界 区 之 前 禁止 所 有 硬件 中 断 , 离开 
时 再 重新 启用 中 断 。 这 种 机 制 尽管 简单 ,但 远 不 是 最 佳 的 。 如 果 临 界 区 比较 大 ， 那 么 在 
一 个 相对 较 长 的 时 间 内 持续 禁止 中 断 就 可 能 使 所 有 的 硬件 活动 处 于 冻结 状态 。 


此 外 , 由 于 在 多 处 理 器 系统 中 禁止 本 地 CPU 上 的 中 断 是 不 够 的 , 所 以 必须 使 用 其 他 的 同 
步 技术 。 


注 9: 同步 问题 已 在 其 他 著作 中 进行 了 详细 描述 。 有 兴趣 的 读者 可 以 参考 有 关 Unix 操 作 系 统 方 
面 的 书 〈 和 参见 本 书 未 尾 的 “参考 书目 ) 。 
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信和 号 量 

广泛 使 用 的 一 种 机 制 是 信号 量 (semaphore), 它 在 单 处 理 器 系统 和 多 处 理 器 系统 上 都 有 
效 。 信 号 量 仅仅 是 与 一 个 数据 结构 相关 的 计数 器。 所 有 内 核 线程 在 试图 访问 这 个 数据 结 
构 之 前 ， 都 要 检查 这 个 信号 量 。 可 以 把 每 个 信号 量 看 成 一 个 对 象 ， 其 组 成 如 下 : 


。 ”一 个 整数 变量 
。 ”一 个 等 待 进 程 的 链表 
。 ”两 个 原子 方法 ; down () 和 up() 


down () 方 法 对 信号 量 的 值 减 1, 如 果 这 个 新 值 小 于 0, 该 方法 就 把 正在 运行 的 进程 加 入 
到 这 个 信号 量 链表 , 然后 阻塞 该 进程 《 即 调用 调度 程序 ) 。up ( ) 方法 对 信和 号 量 的 值 加 1， 
如 果 这 个 新 值 大 于 或 等 于 0， 则 激活 这 个 信号 量 链表 中 的 一 个 或 多 个 进程 。 


每 个 要 保护 的 数据 结构 都 有 它 目 己 的 信号 量 ， 其 初始 值 为 1。 当 内 核 控 制 路 径 希 望 访问 
这 个 数据 结构 时 ， 它 在 相应 的 信号 量 上 执行 down() 方 法 。 如 果 信 号 量 的 当前 值 不 是 负 
数 ， 则 人 允许 访问 这 个 数据 结构 。 否 则 ,把 执行 内 核 控制 路 径 的 进程 加 入 到 这 个 信号 量 的 
链表 并 阻塞 该 进程 。 当 另 一 个 进程 在 那个 信号 量 上 执行 up(O) 方 法 时 ,允许 信号 量 链表 上 
的 一 个 进程 继续 执行 。 


自 旋 锁 


在 多 处 理 器 系统 中 , 信号 量 并 不 总 是 解决 同步 问题 的 最 佳 方案 。 系 统 不 允许 在 不 同 CPU 
上 运行 的 内 核 控制 路 径 同 时 访问 某 些 内 核 数据 结构 , 在 这 种 情况 下 , 如 果 修 改 数据 结构 
所 需 的 时 间 比 较 短 ， 那 么 ,信号 量 可 能 是 很 低 效 的 。 为 了 检查 信号 量 ， 内核 必须 把 进程 
插入 到 信号 量 链表 中 ， 然 后 挂 起 它 。 因 为 这 两 种 操作 比较 费时 ， 完 成 这 些 操作 时 ， 其 他 
的 内 核 控制 路 径 可 能 已 经 释放 了 信号 量 。 


在 这 些 情况 下 ， 多 处 理 器 操作 系统 使 用 了 自 旋 锁 (spin lock)。 上 自 旋 锁 与 信号 量 非常 相 
似 , 但 没有 进程 链表 , 当 一 个 进程 发 现 锁 被 另 一 个 进程 锁 着 时 ， 它 就 不 停 地 “旋转 … 执 
行 一 个 紧 竣 的 循环 指令 直到 锁 打 开 。 

当然 , 自 旋 锁 在 单 处 理 器 环境 下 是 无 效 的 。 当 内 核 控 制 路 径 试 图 访问 一 个 上 锁 的 数据 结 


构 时 ， 它 开始 无 休止 循环 。 因 此， 内 核 控 制 路 径 可 能 因为 正在 修改 受 保护 的 数据 结构 而 
没有 机 会 继续 执行 ， 也 没有 机 会 释放 这 个 自 旋 锁 。 最 后 的 结果 可 能 是 系统 挂 起 。 


避免 死 锁 
与 其 他 控制 路 径 同步 的 进程 或 内 核 控 制 路 径 很 容易 进入 死 锁 (deadlock) 状态 。 举 一 个 
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最 简单 的 死 锁 的 例子 ,进程 pl 获得 访问 数据 结构 a 的 权限 ,进程 p2 获得 访问 5b 的 权限 ， 
但 是 pi 在 等 待 5»， 而 p2 在 等 待 4。 进 程 之 间 其 他 更 复杂 的 人 循环 等 待 的 情况 也 可 能 发 生 。 
显然 ， 死 锁 情 形 会 导致 受 影响 的 进程 或 内 核 控 制 路 径 完 全 处 于 冻结 状态 。 


只 要 涉及 到 内 核 设 计 ， 当 所 用 内 核 信 号 量 的 数量 较 多 时 , 死 锁 就 成 为 一 个 突出 问题 。 在 
这 种 情况 下 , 很 难保 证 内 核 控制 路 径 在 各 种 可 能 方式 下 的 交错 执行 不 出 现 死 锁 状 态 。 有 
几 种 操作 系统 (包括 Linux ) 通过 按 规 定 的 顺序 请 求 信 号 量 来 避免 死 锁 。 


信号 和 进程 间 通 信 

Unix 信号 (signal) 提供 了 把 系统 事件 报告 给 进程 的 一 种 机 制 。 每 种 事件 都 有 自己 的 信 
号 编号 ， 通 常用 一 个 符号 常量 来 表示 ， 例 如 SIGTERM。 有 两 种 系统 事件 

异步 通告 


例如 ， 当 用 户 在 终端 按 下 中 断 键 (通常 为 CTRL-C) 时 , 即 向 前 台 进 程 发 出 中 断 信 
号 SIGINT。 


同步 错误 或 异常 
例如 ， 当 进程 访问 内 存 非法 地 址 时 ， 内 核 向 这 个 进程 发 送 一 个 SIGSEGV 信号。 
POSIX 标准 定义 了 大 约 20 种 不 同 的 信号 ， 其 中 ， 有 两 种 是 用 户 自 定义 的 ， 可 以 当 作用 
户 态 下 进程 通信 和 同步 的 原 语 机 制 。 一 般 来 说 , 进程 可 以 以 两 种 方式 对 接收 到 的 信号 做 
出 反应 ， 
。 ”忽略 该 信号 。 
。 ”异步 地 执行 一 个 指定 的 过 程 ( 信 和 号 处 理 程序 )。 
如 果 进程 不 指定 选择 何 种 方式 , 内 核 就 根据 信号 的 编号 执行 一 个 默认 操作 。 五 种 可 能 的 
默认 操作 是 
。 ”终止 进程 。 
。 ”将 执行 上 下 文 和 进程 地 址 空间 的 内 容 写 入 一 个 文件 (核心 转 储 , core dump), 并 终 
止 进程 。 
。 ”忽略 信号 。 
。 ” 挂 起 进程。 
。 ”如 果 进 程 曾 被 暂停 ， 则 恢复 它 的 执行 。 
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因为 POSIX 语 义 允 许 进 程 暂时 阻塞 信号 , 因此 内 核 信 号 的 处 理 相 当 精 细 。 此 外 ，SIGKILL 
和 SIGSTOP 信和 号 不 能 直接 由 进程 处 理 ， 也 不 能 由 进程 忽略 。 


AT&T 的 Unix System V 引入 了 在 用 户 态 下 其 他 种 类 的 进程 间 通信 机 制 ， 很 多 Unix 内 
核 也 采用 了 这 些 机 制 ， 信 号 量 、 消 息 队 列 及 共享 内 存 。 它 们 被 统称 为 System VIPC。 


内 核 把 它们 作为 7PC 资 源 来 实现 :进程 要 获得 一 个 资源 ,可 以 调用 shmget () .semget () 
或 msgget () 系统 调用 。 与 文件 一 样 ，IPC 资源 是 持久 不 变 的 ,进程 创建 者 、 进 程 拥 有 
者 或 超级 用 户 进 程 必须 显 式 地 释放 这 些 资 源 。 


这 里 的 信号 量 与 本 章 “ 同 步 和 临界 区 ”一 节 中 所 描述 的 信号 量 是 相似 的 ， 只 是 它们 用 在 
用 户 态 下 的 进程 中 。 消 息 队 列 允 许 进程 利用 msgsnad() 及 msgget () 系统 调 用 交换 消 
息 ，msgsnd() 表 示 把 消息 插入 到 指定 的 队列 中 ，msgget () 表 示 从 队列 中 提取 消息 。 


POSIX 标 准 (IEEE Std 1003.1-2001) 定义 了 一 种 基于 消息 队列 的 IPC 机制 ， 这 就 是 所 
谓 的 POSIX 消 肯 队列。 它们 和 System V IPC 消息 队列 是 相似 的 ， 但是， 它们 对 应 用 程 
序 提供 一 个 更 简单 的 基于 文件 的 接口 。 


共享 内 存 为 进程 之 间 交 换 和 共享 数据 提供 了 最 快 的 方式 。 通 过 调用 shmget () 系统 调用 
来 创建 一 个 新 的 共享 内 存 ， 其 大 小 按 需 设置 。 在 获得 IPC 资源 标识 符 后 ， 进 程 调用 
shmat ( ) 系统 调用 ， 其 返回 值 是 进程 的 地 址 空间 中 新 区 域 的 起 始 地 址 。 当 进程 希望 把 
共享 内 存 从 其 地 址 空间 分 离 出 去 时 ， 就 调用 shmqt ( ) 系统 调用 。 共 享 内 存 的 实现 依赖 
于 内 核对 进程 地 址 空间 的 实现 。 


进程 管理 


Unix 在 进程 和 它 正 在 执行 的 程序 之 间 做 出 一 个 清晰 的 划分 。fork() 和 _exit () 系统 调 
用 分 别 用 来 创建 一 个 新 进程 和 终止 一 个 进程 , 而 调用 exec ( ) 类 系统 调用 则 是 装 入 一 个 
新 程序 。 当 这 样 一 个 系统 调用 执行 以 后 ,进程 就 在 所 装 入 程序 的 全 新 地 址 空间 恢复 运行 。 


调用 fork () 的 进程 是 父 进程 ,而 新 进程 是 它 的 子 进程 。 父 子 进 程 能 互相 找到 对 方 ， 
为 描述 每 个 进程 的 数据 结构 都 包含 有 两 个 指针 , 一 个 直接 指向 它 的 父 进 程 , 另 一 个 直接 
指向 它 的 子 进程 。 


， 实现 fork () 一 种 天 真 的 方式 就 是 将 父 进程 的 数据 与 代码 都 复制 , 并 把 这 个 拷贝 赋予 子 


进程 。 这 会 相当 费时 。 当 前 依赖 硬件 分 页 单元 的 内 核 采 用 写 时 复制 (Copy-On-Write) 技 
术 ， 即 把 页 的 复制 延迟 到 最 后 一 刻 (也 就 是 说 ， 直 到 父 或 子 进 程 需 要 时 才 写 进 页 )。 我 
们 将 在 第 九 章 “ 写 时 复制 ”一 节 中 描述 Linux 是 如 何 实现 这 一 技术 的 。 
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_exit () 系 统 调用 终止 一 个 进程 。 内 核对 这 个 系统 调用 的 处 理 是 通过 释放 进程 所 拥有 
的 资源 并 辐 父 进程 发 送 SIGCHILD 信号 (默认 操作 为 忽略 ) 来 实现 的 。 


便 死 进程 (zombie process) 


父 进程 如 何 查询 其 子 进程 是 否 终止 了 呢 ? wait4() 系统 调用 允许 进程 等 待 ， 直 到 其 中 
的 一 个 子 进程 结束 ， 它 返回 已 终止 子 进程 的 进程 标识 符 (Process ID ，PID ) 。 


内 核 在 执行 这 个 系统 调用 时 , 检查 子 进程 是 否 已 经 终止 。 引 入 僵 死 进程 的 特殊 状态 是 为 
了 表示 终止 的 进程 ， 父 进程 执行 完 wait4() 系统 调用 之 前 ， 进 程 就 一 直 停 留 在 那 种 状 
态 。 系统 调用 处 理 程 序 从 进程 描述 符 字段 中 获取 有 关 资 源 使 用 的 一 些 数 据 , 一 旦 得 到 数 
据 , 就 可 以 释放 进程 描述 符 。 当 进程 执行 wait4() 系统 调用 时 如 果 没 有 子 进程 结束 ,内 
核 就 通常 把 该 进程 设置 成 等 待 状态 ， 一 直到 子 进程 结束 。 


很 多 内 核 也 实现 了 waitpid() 系统 调 用 , 它 允 许 进程 等 待 一 个 特殊 的 子 进程 ,其 他 wait4() 
系统 调用 的 变 体 也 是 相当 通用 的 。 


在 父 进程 发 出 wait4() 调 用 之 前 , 证 内 核 保 存 子 进程 的 有 关 信 息 是 一 个 恨 好 的 习惯 ,但 
是 , 假设 父 进程 终止 而 没有 发 出 wait4() 调 用 呢 ? 这 些 信息 占用 了 一 些 内 存 中 非常 有 
用 的 位 置 , 而 这 些 位 置 本 来 可 以 用 来 为 活动 着 的 进程 提供 服务 。 例如, 很 多 shell 允许 用 
户 在 后 台 局 动 一 个 命令 然后 退出 。 正 在 运行 这 个 shell 命 令 的 进程 终止 , 但 它 的 子 进程 继 
解决 的 办 法 是 使 用 一 个 名 为 init 的 特殊 系统 进程 ， 它 在 系统 初始 化 的 时 候 被 创建 。 当 一 
个 进程 终止 时 ， 内 核 改 变 其 所 有 现 有 子 进程 的 进程 描述 符 指针 ， 使 这 些 子 进程 成 为 inii 
的 孩子 。init 监控 所 有 子 进程 的 执行 , 并 且 按 常规 发 布 wait4() 系统 调 用 , 其 副作用 就 
是 除 掉 所 有 优 死 的 进程 。 


进程 组 和 登录 会 话 
现代 Unix 操作 系统 引入 了 进程 组 (process group) 的 概念 ， 以 表示 一 种 “作业 (job)” 
的 抽象 。 例 如 ， 为 了 执行 命令 行 : 


S ls | sort | more 


Shell 支持 进程 组 ,例如 bash， 为 三 个 相应 的 进程 1s、sort 及 more 创建 了 一 个 新 的 “ 
组 。shell 以 这 种 方式 作用 于 这 三 个 进程 ,就 好 像 它 们 是 一 个 单独 的 实体 (更 准确 地 说 是 
作业 ) 。 每 个 进程 描述 符 包 括 一 个 包含 进程 组 ID 的 字段 。 每 一 进程 组 可 以 有 一 个 领头 进 
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程 ( 即 其 PID 与 这 个 进程 组 的 ID 相同 的 进程 )。 新 创建 的 进程 最 初 被 插入 到 其 父 进程 的 
进程 组 中 。 


现代 Unix 内 核 也 引入 了 登录 会 话 (login session)。 非 正式 地 说 ， 一 个 登录 会 话 包含 在 
指定 终端 已 经 开始 工作 会 话 的 那个 进程 的 所 有 后 代 进 程 一 一 通常 情况 下 ， 登 录 会 话 就 
是 shell 进 程 为 用 户 创建 的 第 一 条 命令 。 进程 组 中 的 所 有 进程 必须 在 同一 登录 会 话 中 。 一 
个 登录 会 话 可 以 让 几 个 进程 组 同时 处 于 活动 状态 ,其 中 ,只 有 一 个 进程 组 一 直 处 于 前 台 ， 
这 意味 着 该 进程 组 可 以 访问 终端 , 而 其 他 活动 着 的 进程 组 在 后 台 。 当 一 个 后 台 进程 试图 
访问 终端 时 ,， 它 将 收 到 SIGTTIN 或 SIGTTOUT 信 号。 在 很 多 shell 命令 中 , 用 内 部 命令 
bg 和 fg 把 一 个 进程 组 放 在 后 台 或 者 前 台 。 


内 存 管理 


内 存 管 理 是 迄今 为 止 Unix 内 核 中 最 复杂 的 活动 ,在 本 书 中 , 我们 将 用 超过 三 分 之 一 的 篇 
幅 来 描述 Linux 是 如 何 实现 它 的 。 本 节 只 说 明 一 些 与 内 存 管理 相关 的 主要 问题 。 


虚拟 内 存 

所 有 新 近 的 Unix 系统 都 提供 了 一 种 有 用 的 抽象 ， 叫 虚拟 内 存 (viriual memory)。 虚 拟 
内 存 作 为 一 种 逻辑 层 ， 处 于 应 用 程序 的 内 存 请 求 与 硬件 内 存 管理 单元 (Memory 
Management Unit，MMU ) 之 间 。 虚拟 内 存 有 很 多 用 途 和 优点 : 

。 ”若干 个 进程 可 以 并 发 地 执行 。 

。 ”应 用 程序 所 需 内 存 大 于 可 用 物理 内 存 时 也 可 以 运行 。 

。 ”程序 只 有 部 分 代码 装 和 内存 时 进程 可 以 执行 它 。 

。 ”允许 每 个 进程 访问 可 用 物理 内 存 的 子 集 。 

。 “进程 可 以 共享 库 函 数 或 程序 的 一 个 单独 内 存 映 像 。 

。 ”程序 是 可 重 定位 的 ， 也 就 是 说 ， 可 以 把 程序 放 在 物理 内 存 的 任何 地 方 。 

。 ”程序 员 可 以 编写 与 机 器 无 关 的 代码 , 因为 他 们 不 必 关 心 有 关 物理 内 存 的 组 织 结构 。 
虚拟 内 存 子 系统 的 主要 成 分 是 虚拟 地 址 空间 (virtual address Space) 的 概念 。 进 程 所 


用 的 一 组 内 存 地 址 不 同 于 物理 内 存 地 址 。 当 进程 使 用 一 个 虚拟 地 址 时 ( 注 10)， 内 核 和 
MMU 协同 定位 其 在 内 存 中 的 实际 物理 位 置 。 


注 10: 这些 地 址 的 叫 法 在 不 同 的 计算 机 体系 结构 中 是 不 一 样 的 。 正 如 我 们 在 第 二 章 中 将 会 看 到 
的 一 样 ，Intel 使 用 手册 把 它们 叫做 “还 辑 地 址 。 
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现在 的 CPU 包含 了 能 自动 把 虚拟 地 址 转换 成 物理 地 址 的 硬件 电路 。 为 了 达到 这 个 目标 ， 
把 可 用 RAM 划分 成 长 度 为 4KB 或 8KB 的 页 框 (page frame)， 并 且 引 入 一 组 页 表 来 指 
定 虚拟 地 址 与 物理 地 址 之 间 的 对 应 关系 。 这 些 电路 使 内 存 分 配 变 得 简单 , 因为 一 块 连续 
的 虚拟 地 址 请 求 可 以 通过 分 配 一 组 非 连续 的 物理 地 址 页 框 而 得 到 满足 。 


随机 访问 存储 器 (RAM) 的 使 用 


所 有 的 Unix 操 作 系 统 都 将 RAM 毫 无 疑义 地 划分 为 两 部 分 , 其 中 若干 兆 字 节 专门 用 于 存 
放 内 核 映 像 (也 就 是 内 核 代码 和 内 核 静 态 数据 结构 )。RAM 的 其 余部 分 通常 由 虚拟 内 存 
系统 来 处 理 ， 并 且 用 在 以 下 三 种 可 能 的 方面 : 


。 ”满足 内 核对 缓冲 区 、 描 述 符 及 其 他 动态 内 核 数据 结构 的 请 求 。 
。 ，” 福 足 进程 对 一 般 内 存 区 的 请 求 及 对 文件 内 存 映射 的 请 求 。 
。 ”借助 于 高 速 缓存 从 磁盘 及 其 他 缓冲 设备 获得 较 好 的 性 能 。 


每 种 请 求 类 型 都 是 重要 的 。 但 从 另 一 方面 来 说 ， 因 为 可 用 RAM 是 有 限 的 ， 所 以 必须 在 
请 求 类 型 之 间 做 出 平衡 , 尤其 是 当 可 用 内 存 设 有 剩 下 多 少时 。 此 外 , 当 可 用 内 存 达 到 临 
界 阅 值 时 ， 可 以 调用 页 框 回 收 (page-frame-reclaiming) 算法 释放 其 他 内 存 ， 那 么 哪些 
页 框 是 最 适合 回收 的 页 框 呢 ? 正如 我 们 将 在 第 十 七 章 中 看 到 的 一 样 ,对 这 个 问题 既 没有 
简单 的 答案 , 也 没有 多 少 理论 的 支持 , 惟一 可 用 的 解决 方法 是 开发 经 过 仔细 调节 的 经 验 
算法 。 


虚拟 内 存 系 统 必 须 解 决 的 一 个 主要 问题 是 内 存 碎片 。 理想 情况 下 , 只 有 当空 闲 页 框 数 太 
少时 ， 内 存 请 求 才 失败 。 然 而 ,通常 要 求 内 核 使 用 物理 上 连续 的 内 存 区 域 , 因此 ， 即 使 
有 足够 的 可 用 内 存 ， 但 它 不 能 作为 一 个 连续 的 大 块 使 用 时 ， 内 存 的 请 求 也 会 失败 。 


内 核 内 存 分 配器 


内 核 内 存 分 配器 (Kernel Memory Allocator，KMA) 是 一 个 子 系 统 ， 它 试图 满足 系统 
中 所 有 部 分 对 内 存 的 请 求 。 其 中 一 些 请 求 来 自 内 核 其 他 子 系统 , 它们 需要 一 些 内 核 使 用 
的 内 存 , 还 有 一 些 请 求 来 自 于 用 户 程序 的 系统 调用 ， 用 来 增加 用 户 进 程 的 地 址 空间 。 一 
个 好 的 KMA 应 该 具有 下 列 特点 : 


。 ”必须 快 实际 上 , 这 是 最 重要 的 属性 , 因为 它 由 所 有 的 内 核子 系统 (包括 中 断 处 理 
程序 ) 调用 。 

。 ”必须 把 内 存 的 浪费 减 到 最 少 。 

。 ”必须 努力 减轻 内 存 的 碎片 (fragmentation) 问题 。 
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必须 能 与 其 他 内 存 管 理子 系统 合作 ， 以 便 借用 和 释放 页 框 。 


基于 各 种 不 同 的 算法 技术 ， 已 经 提出 了 几 种 KMA， 包 括 : 


资源 图 分 配 算法 (allocator) 

2 的 短 次 方 空闲 链 表 
McKusick-Karels 分 配 算法 
伙伴 (Buddy) 系统 

Mach 的 区 域 (Zone) 分 配 算法 
Dynix 分 配 算法 

Solaris 的 Slab 分 配 算法 


我 们 将 在 第 八 章 中 看 到 , Linux 的 KMA 在 伙伴 系统 之 上 采用 了 Slab 分 配 算法 。 


进程 虚拟 地 址 空间 处 理 

进程 的 虚拟 地 址 空间 包括 了 进程 可 以 ?引用 的 所 有 虚拟 内 存 地 址 。 内 核 通 带 用 一 组 内 存 区 
描述 符 描述 进程 虚拟 地 址 空间 。 例如, 当 进 程 通 过 exec ( ) 类 系统 调用 开始 某 个 程序 的 
执行 时 ， 内 核 分 配给 进程 的 虚拟 地 址 空间 由 以 下 内 存 区 组 成 : 


程序 的 可 执行 代码 
程序 的 初始 化 数据 
程序 的 未 初始 化 数据 

初始 程序 栈 〈 即 用 户 态 栈 ) 

所 需 共 享 库 的 可 执行 代码 和 数据 
堆 (由 程序 动态 请 求 的 内 存 ) 


所 有 现代 Unix 操作 系统 都 采用 了 所 谓 请 求 调 页 (demand paging) 的 内 存 分 配 策略 。 有 
了 请 求 调 页 , 进程 可 以 在 它 的 页 还 没有 在 内 存 时 就 开始 执行 。 当 进程 访问 一 个 不 存在 的 
页 时 , MMU 产 生 一 个 异常 , 异常 处 理 程 序 找到 受 影响 的 内 存 区 , 分 配 一 个 空闲 的 页 , 并 
用 适当 的 数据 把 它 初始 化 。 同 理 ,， 当 进程 通过 调用 malloc () 或 brk()( 由 malloc () 
在 内 部 调用 ) 系统 调用 动态 地 请 求 内 存 时 , 内 核 仅仅 修改 进程 的 堆 内 存 区 的 大 小 。 只 有 
试图 引用 进程 的 虚拟 内 存 地 址 而 产生 异常 时 ， 才 给 进程 分 配 页 框 。 


虚拟 地 址 空间 也 采用 其 他 更 有 效 的 策略 ， 如 前 面 提 到 的 写 时 复制 策略 。 例 如 ， 当 一 个 新 
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进程 被 创建 时 , 内 核 仅 仅 把 父 进 程 的 页 框 赋 给 子 进程 的 地 址 空间 , 但 是 把 这 些 页 框 标记 
为 只 读 。 一旦 父 或 子 进程 试图 修改 页 中 的 内 容 时 , 一 个 异常 就 会 产生 。 异 常 处 理 程序 把 
新 页 框 赋 给 受 影响 的 进程 ， 并 用 原来 页 中 的 内 容 初 始 化 新 页 框 。 


高 速 缓存 

物理 内 存 的 一 大 优势 就 是 用 作 磁 盘 和 其 他 块 设 备 的 高 速 缓 存 。 这 是 因为 硬盘 非常 慢 : 磁 
盘 的 访问 需要 数 毫 秒 ， 与 RAM 的 访问 时 间 相 比 ， 这 太 长 了 。 因 此 ， 磁 盘 通 常 是 影响 系 
统 性 能 的 瓶颈 。 通常, 在 最 早 的 Unix 系统 中 就 已 经 实现 的 一 个 策略 是 : 尽 可 能 地 推迟 写 
磁盘 的 时 间 , 因此 ， 从 磁盘 读 入 内 存 的 数据 即使 任何 进程 都 不 再 使 用 它们 ， 它 们 也 继续 
留 在 RAM 中 。 

这 一 策略 的 前 题 是 有 好 机 会 摆 在 面前 : 新 进程 请 求 从 磁盘 读 或 写 的 数据 , 就 是 被 撤消 进 
程 曾 拥有 的 数据 。 当 一 个 进程 请 求 访问 磁盘 时 , 内 核 首先 检查 进程 请 求 的 数据 是 否 在 组 
存 中 ， 如 果 在 〈 把 这 种 情况 叫做 缓存 命中 ) ， 内 核 就 可 以 为 进程 请 求 提 供 服务 而 不 用 访 
问 磁盘 。 


sync ( ) 系统 调用 把 所 有 “及 的 缓冲 区 〈 即 缓冲 区 的 内 容 与 对 应 磁盘 块 的 内 容 不 一 样 ) 
写 入 磁盘 来 强制 磁盘 同步 。 为 了 避免 数 据 丢 失 , 所 有 的 操作 系统 都 会 注意 周期 性 地 把 脏 
缓冲 区 写 回 磁盘 。 


设备 驱动 程序 

内 核 通 过 设备 驱动 程序 (device driver) 与 IO 设备 交互 。 设备 驱 动 程序 包含 在 内 核 中 ， 

由 控制 一 个 或 多 个 设备 的 数据 结构 和 函数 组 成 这 些 设备 包括 硬盘 、 键 盘 、 和 鼠标、 监视 

器 、 网 络 接口 及 连接 到 SCSI 总 线 上 的 设备 。 通 过 特定 的 接口 ， 每 个 驱动 程序 与 肉 核 中 

的 其 余部 分 (甚至 与 其 他 驱动 程序 ) 相互 作用 这 种 方式 具有 以 下 优点 : 

。 ”可 以 把 特定 设备 的 代码 封装 在 特定 的 模块 中 。 

。 厂商 可 以 在 不 了 解 内 核 源 代 码 而 只 知道 接口 规范 的 情况 下 ， 就 能 增加 新 的 设备 。 

。 内核 以 统一 的 方式 对 待 所 有 的 设备 ， 并 且 通 过 相同 的 接口 访问 这 些 设 备 。 

*。 “可 以 把 设备 驱动 程序 写成 模块 , 并 动态 地 把 它们 装 进 内 核 而 不 需要 重新 启动 系统 。 
不 再 需要 时 ， 也 可 以 动态 地 仓 下 模块 ， 以 减少 存储 在 RAM 中 的 内 核 映像 的 大 小 。 


图 1-4 说 明了 设备 蝶 动 程序 与 内 核 其 他 部 分 及 进程 之 间 的 接口 。 
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设备 驱动 程序 接口 


| 思量 国 


系统 调用 接口 


点 拟 文件 系统 





Kernel 字符 设备 文件 块 设备 文件 





1-4: 设备 驱动 程序 接口 


一 些 用 户 程序 (P) 希望 操作 硬件 设备 。 这 些 程序 就 利用 常用 的 、 与 文件 相关 的 系统 调 
用 及 在 /dev 目 录 下 能 找到 的 设备 文件 同 内 核发 出 请 求 。 实际 上 , 设备 文件 是 设备 哎 动 程 
序 接口 中 用 户 可 见 的 部 分 。 每 个 设备 文件 都 有 专门 的 设备 驱动 程序 , 它们 由 内 核 调 用 以 
执行 对 硬件 设备 的 请 求 操作 。 


这 里 值得 一 提 的 是 ， 在 Unix 刚 出 现 的 上 时候， 图 形 终端 是 罕见 而 且 昂 贵 的 ， 因 此 Unix 内 
核 只 直接 处 理 字符 终端 。 当 图 形 终端 变 得 非常 普遍 时 , 一些 如 X Window 系统 那样 的 特 
别 的 应 用 就 出 现 了 ， 它 们 以 标准 进程 的 身份 运行 ， 并 且 能 直接 访问 图 形 界面 的 IO 端口 
和 RAM 的 视频 区 域 。 一 些 新 近 的 Unix 内 核 ， 例 如 Linux 2.6， 对 图 形 卡 的 帧 缓冲 提供 
了 一 种 抽象 ,从 而 允许 应 用 软件 无 需 了 解 图 形 界面 的 IO 端口 的 任何 知识 就 能 对 其 进行 
访问 (参见 第 十 三 章 “ 内 核 支持 的 级 别 ” 一 节 )。 
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本 章 介绍 寻 址 技术 。 值 得 庆幸 的 是 ,操作 系统 自身 不 必 完 全 了 解 物 理 内 存 ， 如 今 的 微 处 
理 器 包含 的 硬件 线路 使 内 存 管理 既 高 效 又 健壮 ,所 以 编程 错误 就 不 会 对 该 程序 之 外 的 内 
存 产 生 非 法 访问 。 


作为 本 书 的 一 部 分 , 本 章 将 详细 描述 80x86 微 处 理 器 怎样 进行 芯片 级 的 内 存 寻 址 , Linux 
又 是 如 何 利 用 寻 址 硬件 的 。 我 们 希望 当 你 学 习 内 存 寻 址 技术 在 Linux 最 流行 的 硬件 平台 
上 的 详细 实现 方法 时 , 既 能 够 更 好 地 理解 分 页 单元 的 一 般 原理 , 又 能 更 好 地 研究 内 存 寻 
址 技术 在 其 他 平台 上 是 如 何 实 现 的 。 


关于 内 存 管理 有 三 章 , 这 是 其 中 的 第 一 章 ; 还 有 第 八 章 , 讨论 内 核 怎 样 给 自己 分 配 主 存 ， 
以 及 第 九 章 ， 考 虑 怎样 给 进程 分 配 线性 地 址 。 


内 存 地 址 


程序 员 偶 尔 会 引用 内 存 地址 (memory address) 作为 访问 内 存单 元 内 容 的 一 种 方式 ,但 
是 ， 当 使 用 80x86 微 处 理 器 时 ， 我 们 必须 区 分 以 下 三 种 不 同 的 地 址 : 


远 于 地 给 (logical address) 
包含 在 机 器 语言 指令 中 用 来 指定 一 个 操作 数 或 一 条 指令 的 地 址 。 这 种 寻 址 方式 在 
80x86 著 名 的 分 段 结 构 中 表现 得 尤为 具体 , 它 促使 MS-DOS 或 Windows 程 序 员 把 程序 


分 成 若干 段 。 每 一 个 逻辑 地 址 都 由 一 个 段 (segment) 和 偏 移 量 (offset 或 displacement) 
组 成 ， 偏 移 量 指明 了 从 段 开 始 的 地 方 到 实际 地 址 之 则 的 距离 。 
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线 糙 地 相 (linear address)( 也 敌 诡 孝 地 引 Virtiual address) 
是 一 个 32 位 无 符号 整数 ,可 以 用 来 表示 高 达 4GB 的 地 址 , 也 就 是 , 高 达 4 294 967 





296 个 内 存单 元 。 线 性 地 址 ; 六 进 制 数 字 表 示 ， 值 的 范围 从 0x00000000 到 
Oxf ftfELEEE. 

物理 地 村 (physical address ) 
用 于 内 存 芯 片 级 内 存单 元 寻 址 ,它们 与 从 微 处 理 大 到 内 存 总 线 上 的 


电信 号 相对 应 。 物 理 地 址 由 32 位 或 36 位 无 符号 整数 表示 。 


内 存 控制 单元 (MMU ) 通过 一 种 称 为 分 段 单元 (segmentation unit) 的 硬件 电路 把 一 个 
逻辑 地 址 转换 成 线性 地 址 ， 接着 ,第 二 个 称 为 分 页 单元 (paging unit) 的 硬件 电路 把 线 
性 地 址 转换 成 一 个 物理 地 址 ( 见 图 2-1)。 


逻辑 地 址 EE ond | one be Me 


2-1: 逻辑 地 址 转换 





在 多 处 理 器 系统 中 , 所 有 CPU 都 共享 同一 内 存 ; 这 意味 着 RAM 心 片 可 以 由 独立 的 CPU 
并 发 地 访问 。 因 为 在 RAM 心 片上 的 读 或 写 操作 必须 串 行 地 执行 ， 因 此 一 种 所 谓 内 存 促 
裁 器 (memory arbiter) 的 硬件 电路 插 在 总 线 和 每 个 RAM 世 片 之 间 。 其 作用 是 如 果 某 
个 RAM 心 片 空闲 ， 束 准予 一 个 CPU 访问 ， 如 果 该 芯片 忙于 为 男 一 个 处 理 器 提出 的 请 求 
服务 , 就 延迟 这 个 CPU 的 访问 。 即 使 在 单 处 理 器 上 也 使 用 内 存 仲裁 器 ,因为 单 处 理 器 系 
统 中 包含 一 个 叫做 DMA 控制 器 的 特殊 处 理 器 ,而 DMA 控制 器 与 CPU 并 发 操作 [参见 
第 十 三 章 “ 直 接 内 存 访问 (DMA)” 一 市 "]。 在 多 处 理 器 系统 的 情况 下 ， 因 为 仲裁 器 有 
多 个 输入 端口 ， 所 以 其 结构 更 加 复杂 。 例 如 ， 双 Pentium 在 每 个 芯片 的 入 口 维持 一 个 两 
端口 仲裁 器 , 并 在 试图 使 用 公用 总 线 前 请 求 两 个 CPU 交换 同步 信息 。 从 编程 观点 看 ， 
为 仲裁 器 由 硬件 电路 管理 ， 因 此 它 是 隐藏 的 。 


硬件 中 的 分 段 


从 80286 模型 开始 ，Intel 微 处 理 强 以 两 种 不 同 的 方式 执行 地 址 转换 ， 这 两 种 方式 分 别 
称 为 实 模式 《real mode) 和 保护 模式 (protected mode)。 我 们 将 从 下 一 节 开 始 摘 述 保 
护 模式 下 的 地 址 转换 。 实 模式 存在 的 主要 原因 是 要 维持 处 理 器 与 早期 模型 兼容 , 并 让 操 
作 系 统 自 举 (参阅 附录 一 中 针对 实 模式 的 简短 描述 ) 。 
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段 选 择 符 和 段 寄存 器 

一 个 逻辑 地 址 由 两 部 分 组 成 ; 一 个 段 标 识 符 和 一 个 指定 段 内 相对 地 址 的 假 移 量 。 段 标识 
符 是 一 个 16 位 长 的 字 称 为 段 选择 符 (Segment Selector) 如 图 2-2 所 示 ， 而 偏 移 量 
是 一 个 32 位 长 的 字段 。 我 们 将 在 本 章 “ 快 速 访问 段 描述 符 ” 一 节 描 述 段 选择 符 字段 。 





2-2: 段 描述 符 格 式 


为 了 快速 方便 地 找到 段 选择 符 , 处 理 器 提供 段 寄存 器 , 段 寄存 器 的 唯一 目的 是 存放 段 选择 
. 符 。 这 些 段 寄存 器 称 为 cs，ss,，ds，es，fs 和 gs。 尽 管 只 有 6 个 段 寄 存 器 ， 但 程序 可 
以 把 同一 个 段 寄存 器 用 于 不 同 的 目的 ， 方 法 是 先 将 其 值 保存 在 内 存 中 ， 用 完 后 再 恢复 。 


6 个 寄存 器 中 3 个 有 专门 的 用 途 : 
cs 代码 段 寄 存 器 ， 指 向 包含 程序 指令 的 段 。 


ss 栈 段 寄存 器 ， 指 向 包含 当前 程序 栈 的 段 。 
ds ”数据 段 寄存 器 ， 指 向 包含 静态 数据 或 者 全 局 数据 自 。 


其 他 3 个 段 寄存 器 作 一 般 用 途 ， 可 以 指向 任意 的 数据 段 。 


cs 寄存 器 还 有 一 个 很 重要 的 功能 : 它 含 有 一 个 两 位 的 字段 ， 用 以 指明 CPU 的 当前 特权 
级 Current Privilege Level，CPL)。 值 为 0 代表 最 高 优先 级 ， 而 值 为 3 代表 最 低 优 先 
级 。Linux 只 用 0 级 和 3 级 ， 分 别称 之 为 内 核 态 和 用 户 态 。 


段 描述 符 
每 个 段 由 一 个 8 宇 市 的 段 描 述 符 (Segment Descriptor) 表示 ， 它 描述 了 段 的 特征 。 段 摘 
述 符 放 在 全 局 描述 符 表 (Global Descriptor Table,GDT) 或 局 部 撕 述 符 表 (Local 


Descriptor Table ,LDT) 中 。 


通常 只 定义 一 个 GDT, 而 每 个 进程 除了 存放 在 GDT 中 的 段 之 外 如 果 还 需要 创建 附加 的 
段 , 就 可 以 有 自己 的 LDT。GDT 在 主 存 中 的 地 址 和 大 小 存放 在 gdtr 控制 寄 存 器 中 ， 当 


前 正 被 使 用 的 LDT 小 放 在 1dtr 控制 寄存 绒 
图 2-3 关 明了 段 拉 述 符 的 格式 ， 表 2-1 解释 了 图 中 各 个 字段 的 含义 
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表 2-1: 段 描 述 符 字 段 

字段 名 描述 

Base 包含 段 的 首 字 节 的 线性 地 址 

G 粒度 标志 : 如 果 该 位 清 0， 则 段 大 小 以 字 节 为 单位 ， 否 则 以 4096 字 节 的 倍 
数 计 

Limit 存放 段 中 最 后 一 个 内 存单 元 的 偏 移 量 ， 从 而 决定 段 的 长 度 。 如 果 G 被 置 为 
0， 则 一 个 段 的 大 小 在 1 个 字 节 到 1MB 之 间 变 化 ， 否则 ， 将 在 4KB 到 4GB 
之 间 变 化 

S 系统 标志 : 如 果 它 被 清 0， 则 这 是 一 个 系统 段 ， 存 储 诸如 LDT 这 种 关键 的 
数据 结构 ， 否 则 它 是 一 个 普通 的 代码 段 或 数据 段 . 

Type 描述 了 上 段 的 类 型 特征 和 它 的 存 取 权限 (请 看 表 下 面 的 描述 ) 

DPL 描述 符 特 权 级 (Descriptor Privilege Level) 字段 : 用 于 限制 对 这 个 段 的 存 


取 。 它 表示 为 访问 这 个 段 而 要 求 的 CPU 最 小 的 优先 级 。 因 此 ，DPL 设 为 0 
的 段 只 能 当 CPL 为 0 时 ( 即 在 内 核 态 ) 才 是 可 访问 的 ， 而 DPL 设 为 3 的 段 


对 任何 CPL 值 都 是 可 访问 的 

P Segment-Present 标志 : 等 于 0 表示 段 当 前 不 在 主 存 中 。Linux 总 是 把 这 个 
标志 (第 47 位 ) 设 为 1， 因 为 它 从 来 不 把 整个 段 交 换 到 磁盘 上 去 

D 或 B 称 为 D 或 B 的 标志 ， 取 决 于 是 代码 段 还 是 数据 段 。D 或 B 的 含义 在 两 种 情 


况 下 稍微 有 所 区 别 , 但 是 如 果 段 偏 移 量 的 地 址 是 32 位 长 , 就 基本 上 把 它 置 
为 1， 如 果 这 个 偏 移 量 是 16 位 长 ， 它 被 清 0 (更 详细 的 描述 参见 Intel 使 用 
手册 ) 


AVL 标志 可 以 由 操作 系统 使 用 ， 但 是 被 Linux 忽略 


有 几 种 不 同类 型 的 段 以 及 和 它们 对 应 的 的 段 撕 述 符 。 下 面 列 出 了 Linux 中 被 广泛 采用 的 
类 型 : 


代码 民 揪 还 符 
表示 这 个 段 描 述 符 代表 一 个 代码 段 ， 它 可 以 放 在 GDT 或 LDT 中。 该 描述 符 置 S 标 
志 为 1 ( 非 系 统 段 )。 


数据 恨 插 壕 符 
表示 这 个 段 描 述 符 代表 一 个 数据 段 ， 它 可 以 放 在 GDT 或 LDT 中 。 该 描述 符 置 S 标 
志 为 1。 栈 段 是 通过 一 般 的 数据 段 实现 的 。 

企 务 状 态 良 搓 述 符 (TSSD) 
表示 这 个 段 描述 符 代 表 一 个 任务 状态 段 (Task State Segment, TSS), 也 就 是 说 这 
个 段 用 于 保存 处 理 器 寄存 器 的 内 容 (参见 第 三 章 中 的 “任务 状态 段 ” 一 节 )。 它 只 
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能 出 现在 GDT 中 。 根 据 相 应 的 进程 是 否 正 在 CPU 上 运行 , 其 Type 字段 的 值 分 别 
为 11 或 9。 这 个 描述 符 的 S 标志 置 为 0。 


数据 段 描述 符 


6G3626600595857 5 5 5959929150 和 本 和 御 析 4 科 和 和 4 和 1 物 扫 3 抱 林 荐 切 和 革 天 


BASE(24-31) BASE (16-23) 








3 加 2928272625242322212019181716151413121110 9876543210 








代码 段 描述 符 
63 62 61605958575655545352515040 和 5 征 特征 术科 可 393337353534332 
Al LNT. 8 $ 
BASE(24-31) GIDIOIY| 061% 11 =| TYPE BASE (16-23) 
BASE(0-15) 
31 30 29 28 27 26252423222120191817161514312110 9876543210 
系统 段 描 述 符 
6362660595857565545325150 和 由 4 箱 斩 5 特种 入 相 和 39333371353534332 
$ 
BASE(24-31) BASE (16-23) 
31 30 29 282726252M42322201918171615M4B312110 9876543 2 10 





2-3: 段 描 述 得 格式 


局 部 殖 壕 符 玫 的 述 符 (LDTD) 
表示 这 个 段 描 述 符 代 表 一 个 包含 LDT 的 段 ， 它 只 出 现在 GDT 中。 相应 的 Type 字 
段 的 值 为 2, S 标 志 置 为 0。 下 一 节 说 明 80x86 处 理 器 如 何 决 定 一 个 段 描述 符 是 存放 
在 GDT 中 还 是 存放 在 进程 的 LDT 中 。 


快速 访问 段 描 述 符 
我 们 回忆 一 下 : 逻辑 地 址 由 16 位 段 选择 符 和 32 位 偏 移 量 组 成 ， 段 寄存 器 仅仅 存放 段 先 
_ 择 符 。 


为 了 加 速 逻 辑 地 址 到 线性 地 址 的 转换 ，80x86 处 理 器 提供 一 种 附加 的 非 编 程 的 寄存 器 
(一 个 不 能 被 程序 员 所 设置 的 寄存 器 ) , 供 6 个 可 编程 的 段 寄 存 器 使 用 。 每 一 个 非 编程 的 
宁 存 痊 售 有 8 个 字 节 的 段 挤 述 符 ( 在 前 一 节 已 讲述 )， 让 


指定 。 每 当 一 个 段 ; 存 器 时 , 相应 的 







TH LA 
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编程 CPU 寄存 器。 从 那 时 起 ， 针 对 那个 段 的 逻辑 地 址 转换 就 可 以 不 访 同 主 存 中 的 GDT 
或 LDT， 处 理 器 只 需 直 接 引 用 存放 段 描 述 符 的 CPU 寄存 埋 即 可 。 仅 当 段 寄存 器 的 内 容 
改变 时 ， 才 有 必要 访 同 GDT 或 LDT (参见 图 2-4)。 











2:4: 段 选择 答 和 段 描述 符 
表 2-2 摘 述 了 任意 段 选择 符 所 包含 的 3 个 字段 。 
表 2-2: 段 选 择 符 字段 


字段 名 氮 述 

inaGex 指定 了 放 在 GDT 或 LDT 中 的 相应 段 描 述 符 的 入 口 (在 下 面 将 作 进 一 步 的 讲 
述 ) 
TI ((Table Indicator) 标 志 : 指明 有 段 描述 符 是 在 GDT 中 (TI=0) 或 在 LDT 
中 (TI=1) 

RPL 请 求 者 特权 级 : 当 相 应 的 段 选择 符 装 人 到 cs 寄存 器 中 时 指示 出 CPU 当前 


的 特权 级 ， 它 还 可 以 用 于 在 访问 数据 段 时 有 选择 地 削弱 处 理 器 的 特权 级 
(详情 请 参见 Intel 文档 ) 


由 于 一 个 段 描述 符 是 8 字 节 长 ， 因 此 它 在 GDT 或 LDT 内 的 相对 地 址 是 由 段 选择 符 的 最 高 


13 位 的 值 乘 以 8 得 到 的 .例如 : 如 果 GDT 在 0x00020000 (这 个 值 保 存在 gdtr 寄 存 器 中 )， 
且 由 段 选择 符 所 指定 的 索引 号 为 2, 那么 相应 的 段 描 述 符 地 址 是 0x00020000 + (2 x 8)， 


GDT 的 第 一 项 总 是 设 为 0。 这 束 确 保 空 段 选择 符 的 丈 辑 地 址 会 被 认为 是 无 效 的 , 因此 引 
人 
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| 
ii 
请 


分 段 单 元 


图 2-5 详 细 显 示 了 一 个 逻辑 地 址 是 怎样 转换 成 相应 的 线性 地 址 的 。 分 段 单元 (segmentation 
unit) 执行 以 下 操作 : 


。 ” 先 检 查 段 选择 符 的 TI 字段 , 以 决定 段 描 述 符 保存 在 哪 一 个 描述 符 表 中 。TI 字 段 指 
明 描 述 符 是 在 GDT 中 (在 这 种 情况 下 ,分 段 单 元 从 gdtr 寄存器 中 得 到 GDT 的 线 
性 基地 址 ) 还 是 在 激活 的 LDT 中 (在 这 种 情况 下 , 分 段 单元 从 la9tr 寄 存 器 中 得 到 
LDT 的 线性 基地 址 )。 


。 ”从 段 选择 符 的 index 字段 计算 段 描 述 符 的 地 址 ，index 字段 的 值 乘 以 8 (一 个 段 
描述 符 的 大 小 ) ， 这 个 结果 与 gaQtr 或 1dqtr 寄 在 器 中 的 内 容 相 加 。 
。 ”把 逻辑 地 址 的 偏 移 量 与 段 描 述 符 Base 字段 的 值 相 加 就 得 到 了 线性 地 址 。 


gdtr or ldtr 





2-5: 逻辑 地 址 的 转换 


请 注意 , 有 了 与 段 寄 存 器 相关 的 不 可 编程 寄存 器 , 只 有 当 段 寄存 器 的 内 容 被 改变 时 才 需 
要 执行 前 两 个 操作 。 


Linux 中 的 分 段 


80x86 微 处 理 器 中 的 分 段 殴 励 程序 员 把 他 们 的 程序 化 分 成 逻辑 上 相关 的 实体 ,例如 子 程 
序 或 者 全 局 与 局 部 数据 区 。 然 而 ，Linux 以 非常 有 限 的 方式 使 用 分 段 。 实 际 上 ， 分 段 和 
分 页 在 某 种 程度 上 有 点 多 余 , 因为 它们 都 可 以 划分 进程 的 物理 地 址 空间 : 分 段 可 以 给 每 
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一 个 进程 分 配 不 同 的 线性 地 址 空间 ,而 分 页 可 以 把 同一 线性 地 址 空间 映射 到 不 同 的 物理 
空间 。 与 分 段 相 比 ，Linux 更 喜欢 使 用 分 页 方式 ， 因 为 ， 


。 ” 当 所 有 进程 使 用 相同 的 段 寄 存 器 值 时 , 内 存 管 理 变 得 更 简单 , 也 就 是 说 它们 能 共享 
同样 的 一 组 线性 地 址 。 

。 ”Linux 设计 目标 之 一 是 可 以 把 它 移植 到 绝 大 多 数 流 行 的 处 理 器 平台 上 ,然而 , RISC 
体系 结构 对 分 段 的 支持 很 有 限 。 


2.6 版 的 Linux 只 有 在 80x86 结构 下 才 需 要 使 用 分 段 。 


运行 在 用 户 态 的 所 有 Linux 进程 都 使 用 一 对 相同 的 段 来 对 指令 和 数据 寻 址 。 这 两 个 段 就 
是 所 谓 的 用 户 代 码 段 和 用 户 数 据 段 。 类 似 地 ,运行 在 内 核 态 的 所 有 Linux 进程 都 使 用 一 
对 相同 的 段 对 指令 和 数据 寻 址 : 它们 分 别 叫做 内 核 代码 段 和 内 核 数 据 段 。 表 2-3 显示 了 
这 四 个 重要 段 的 段 描述 符 字段 的 值 。 


表 2-3: 四 个 主要 的 Linux 段 的 段 描述 符 字 段 的 值 


段 .Base G Limit .SS Type DPL D/B PP 


用 户 代码 段 0x00000000 1 l 
用 户 数据 段 ”0x00000000 1 Oxfffff 1 2 
内 核 代 码 段 ”0x00000000 1 Oxfffff 1] 
内 核 数 据 段 ”0x00000000 1 Oxfffff |] 


Oxfffff 


So 
DO DD Dm ww 
一 一 一 一 
一 一 一 一 


相应 的 段 选择 符 由 宏 _、_USER_CS，_ USER_DS，_ KERNEL CS， 和 KERNEL_DS 分 别 


定义 。 例 如 ， 为 了 对 内 核 代 码 段 寻 址 ， 内 核 只 需要 把 __KERNEL_CS 宏 产生 的 值 装 进 cs 
段 寄 存 器 即 可 。 


注意 , 与 段 相 关 的 线性 地 址 从 0 开始 , 达到 2 -1 的 寻 址 限 长 。 这 就 意味 着 在 用 户 态 或 内 
核 态 下 的 所 有 进程 可 以 使 用 相同 的 逻辑 地 址 。 


所 有 段 都 从 0x00000000 开 始 , 这 可 以 得 出 另 一 个 重要 结论 , 那 就 是 在 Linux 下 这 辑 地 址 
与 线性 地 址 是 一 致 的 , 即 逻 辑 地 址 的 偏 移 晤 字段 的 值 与 相应 的 线性 a 不一致 的 。 


如 前 所 述 ，CPU 的 当前 特权 级 《CPL) 反映 了 进程 是 在 用 户 态 还 是 内 核 态 , 并 由 存放 在 
cs 寄存 器 中 的 段 选 择 符 的 RPL 字段 指定 。 只 要 当前 特权 级 被 改变 ， 一 些 段 寄 存 器 必须 
相应 地 更 新 。 例如 , 当 CPL=3 时 (用户 态 ), as 寄存 器 必须 含有 用 户 数据 段 的 段 选择 符 ， 
而 当 CPL=0 时 ，ds 寄存 器 必须 含有 内 核 数据 段 的 段 选 择 符 。 


类 似 的 情况 也 出 现在 ss 寄存 器 中 。 当 CPL 为 3 时 ， 它 必须 指向 一 个 用 户 数据 段 中 的 用 
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户 栈 , 而 当 CPL 为 0 时 ， 它 必须 指向 内 核 数 据 段 中 的 一 个 内 核 栈 。 当 从 用 户 态 切 换 到 内 
核 态 时 ，Linux 总 是 确保 ss 寄存 器 装 有 内 核 数据 段 的 段 选 择 符 。 


当 对 指向 指令 或 者 数据 结构 的 指针 进行 保存 时 ,内 核 根 本 不 需要 为 其 设置 逻辑 地 址 的 段 
选择 符 ， 因 为 cs 寄存 器 就 含有 当前 的 段 选择 符 。 例 如 ， 当 内 核 调用 一 个 函数 时 ， 它 执 
行 一 条 call 汇编 语言 指令 , 该 指令 仅 指 定 其 逻辑 地 址 的 偏 移 量 部 分 ,而 段 选择 符 不 用 
设置 ， 它 已 经 隐 含 在 cs 寄存 器 中 了 。 因 为 “在 内 核 态 执行 ”的 段 只 有 一 种 ， 叫 做 代码 
7 段 ， 由 宏 __KERNEL_CS 定义 ， 所 以 只 要 当 CPU 切换 到 内 核 态 时 将 KERNEL_CS 装 
载 进 cs 就 足够 了 。 同 样 的 道理 也 适用 于 指向 内 核 数 据 结构 的 指针 《〈 隐 含 地 使 用 ds 寄存 
器 ) 以 及 指向 用 户 数据 结构 的 指针 (内核 显 式 地 使 用 es 寄存 器 ) 。 


除了 刚才 描述 的 4 个 段 以 外 ，Linux 还 使 用 了 其 他 几 个 专门 的 段 。 我 们 将 在 下 一 市 讲述 
Linux GDT 的 时 候 介绍 它们 。 


Linux GDT 


在 单 处 理 器 系统 中 只 有 一 个 GDT, 而 在 多 处 理 器 系统 中 每 个 CPU 对 应 一 个 GDT。 所 有 
的 GDT 都 存放 在 cpu_gdt_table 数 组 中 , 而 所 有 GDT 的 地 址 和 它们 的 大 小 (当初 始 
化 gdtr 寄 存 器 时 使 用 ) 被 存放 在 cpu_gdt_descr 数 组 中 。 如 果 你 到 源 代 码 索 引 中 查看 ,可 
以 看 到 这 些 符 号 都 在 文件 arch/i386/kernel/head.$ 中 被 定义 。 本 书 中 的 每 一 个 宏 、 钞 数 
和 其 他 符号 都 被 列 在 源 代码 索引 中 ， 所 以 能 在 源 代 码 中 很 方便 地 找到 它们 。 


图 2-6 是 GDT 的 布局 示意 图 。 每 个 GDT 包含 18 个 段 描述 符 和 14 个 空 的 , 未 使 用 的 , 或 
保留 的 项 ,插入 未 使 用 的 项 的 目的 是 为 了 使 经 常 一 起 访问 的 描述 符 能 够 处 于 同一 个 32 字 
节 的 硬件 高 速 缓存 行 中 (参见 本 章 后 面 “ 硬 件 高 速 缓存 ”一 太 )。 


每 一 个 GDT 中 包含 的 18 个 段 描述 符 指向 下 列 的 段 ， 


。 ”用 户 态 和 内 核 态 下 的 代码 段 和 数据 段 共 4 个 (参见 前 面 一 节 )。 

” ”任务 状态 段 (TSS)， 每 个 处 理 器 有 1 个 。 每 个 TSS 相应 的 线性 地 址 空间 都 是 内 核 
数据 段 相应 线性 地 址 空间 的 一 个 小 子 集 。 所 有 的 任务 状态 段 都 顺序 地 存放 在 
init_tss 数 组 中 ， 值得 特别 说 明 的 是 , 第 4 个 CPU 的 TSS 描 述 符 的 Base 字段 指 
向 init_tss 数 组 的 第 n 个 元 素 。G (粒度 ) 标志 被 清 0, 而 Limit 字段 置 为 0xeb， 
因为 TSS 段 是 236 字 节 长 。Type 字段 置 为 9 或 11 (可 用 的 32 位 TSS), 且 DPL 置 
为 0, 因为 不 允许 用 户 杰 下 的 进程 访问 TSS 段 。 在 第 三 章 “ 任 务 状 态 段 ”一 第 你 可 
以 找到 Linux 是 如 何 使 用 TSS 的 细节 。 
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Linux 全 局 描述 符 表 。 段 选择 符 Linux 全 局 描述 符 表 。“ 段 选择 符 
null “0x0 TSS 0x80 
reserved : | 0x88 
reserved : PNPBIOS 32-bit code = | 0x90 
reserved PNPBIOS 16-bit code | 0x98 
not used ; PNPBIOS 16-bit data © 0xa0 
not used PNPBIOS 16-bit data ;0xa8 
TLS# ”0x33 PNPBIOS 16-bit data ;0xb0 
Tb APMBIOS 32-bit code ;oxb8 
TS#3 ; Ox43 TREE oa 
reserved pos Oxc8 
reserved ， not used 
reserved | not used | 
kemelcode :0x60( KERNEL_CS) ntued 
kemeldata 2; Ox68 (KERNEL_DS) not used 
User code 1 Ox73 (__USER_CS) not used 
userdata :Ox7b( USER_DS) ~ doublefaulttss  : Oxfs 





2-6: 全 局 描述 符 表 


幸 证 】: 


] 个 包括 缺 省 局 部 朱 述  ， 这 个 段 通 党 是 被 所 有 进程 共享 的 段 (参见 下 一 
Ts 


3 个 局 部 线程 存储 (Thread-Local Storage,，TLS) 段 : 这 种 机 制 允 许多 线程 应 用 程序 使 
用 最 多 3 个 局 部 于 线程 的 数据 段 , 系统 调 用 set_thread area() 和 get_thread area() 
分 别 为 正在 执行 的 进程 创建 和 撤消 一 个 TLS 段 。 

与 高 级 电源 管理 (AMP) 相关 的 3 个 段 : 由 于 BIOS 代码 使 用 段 , 所 以 当 Linux APM 
驱动 程序 调用 BIOS 函数 来 获取 或 者 设置 APM 设备 的 状态 时 ， 就 可 以 使 用 自 定义 
的 代码 段 和 数据 段 。 

辟 支 持 即 插 即 用 (PnP) 功能 的 BIOS 服务 程序 相关 的 5 个 段 ; 在 前 一 种 情况 下 , 就 
像 前 述 与 AMP 相关 的 3 个 段 的 情况 一 样 ， 由 于 BIOS 例 程 使 用 7 段 ， 所 以 当 Linux 的 
PnP 设备 驱动 程序 调用 BIOS 函数 来 检测 PnP 设备 使 用 的 资源 时 ， 就 可 以 使 用 自 定 
义 的 代码 段 和 数据 段 。 

被 内 核 用 来 处 理 “ ”( 译 注 1) 异常 的 特殊 TSS 段 (参见 第 四 章 的 “异常 


一 节 ) 


处 理 一 个 异常 时 可 能 会 引发 另 一 个 异常 ,在 这 种 情况 下 产生 双重 错误 。 
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如 前 所 述 ， 系 统 中 每 个 处 理 器 都 有 一 个 GDT 副本 。 除 少数 几 种 情况 以 外 ,所 有 GDT 的 
副本 都 存放 相同 的 表 项 。 首 先 ， 每 个 处 理 器 都 有 它 自己 的 TSS 段 ， 因 此 其 对 应 的 GDT 
项 不 同 。 其 次 ，GDT 中 只 有 少数 项 可 能 依赖 于 CPU 正在 执行 的 进程 (LDT 和 TLS 段 接 
述 符 )。 最 后 ,在 某 些 情况 下 ， 处 理 器 可 能 临时 修改 GDT 副本 里 的 某 个 项 ; 例如 ， 当 调 
用 APM 的 BIOS 例 程 时 就 会 发 生 这 种 情况 。 


Linux LDT 


大 多 数 用 户 态 下 饼 用 所 述 符 表 , 这 样 内 核 就 定义 了 一 个 缺 省 的 LDT 
供 大 多 数 进程 共享 。 也 省 的 局 部 描述 符 表 存 放 在 default_ ldt 数组 中 。 它 包含 5 个 项 ， 
但 内 核 仅 仅 有 效 地 使 用 了 其 中 的 两 个 项 : 用 于 iBCS 执行 文件 的 调用 门 和 Solaris/x86 可 
执行 文件 的 调用 门 (参见 第 二 十 章 的 “执行 域 ”一 节 )。 调 用 门 是 80x86 微 处 理 器 提供 
的 一 种 机 制 , 用 于 在 调用 预定 义 函数 时 改变 CPU 的 特权 级 , 由 于 我 们 不 会 再 更 深入 地 讨 
论 它 们 ， 所 以 请 参考 Intel 文档 以 获取 更 多 详情 。 


在 某 些 情况 下 ,进程 仍然 需要 创建 自己 的 局 部 描述 符 表 。 这 对 有 些 应 用 程序 很 有 用 , 像 
Wine 那 样 的 程序 , 它们 执行 面向 段 的 微软 Windows 应 用 程序 。modify_ldt () 系 统 调用 
允许 进程 创建 自己 的 局 部 描述 符 表 。 








任何 被 modify_1dt () 创 建 的 自 定义 局 部 描述 符 表 仍然 需要 它 自己 的 段 。 当 处 理 器 开 
始 执行 拥有 自 定义 局 部 描述 符 表 的 进程 时 ， 该 CPU 的 GDT 副本 中 的 LDT 表 项 相应 地 
就 被 修改 了 。 


用 户 态 下 的 程序 同样 也 利用 moedaify_ldat() 来 分 配 新 的 段 ,但 内 核 却 从 不 使 用 这 些 段 ， 
它 也 不 需要 了 解 相 应 的 段 描 述 符 ,因为 这 些 段 描述 符 被 包含 在 进程 自 定 义 的 局 部 描述 符 
表 中 了 。 


硬件 中 的 分 页 


分 页 单元 (paging unit) 把 线性 地 址 转换 成 物理 地 址 。 其 中 的 一 个 关键 任务 是 把 所 请 求 
的 访问 类 型 与 线性 地 址 的 访问 权限 相 比较 ,如 果 这 次 内 存 访问 是 无 效 的 , 就 产生 一 个 缺 
页 异常 (参见 第 四 章 和 第 八 章 )。 





为 了 效率 起 见 ， 线 性 起 人 园 。 页 内 部 连续 
的 线性 地 址 到 连续 的 和 这 笠 ， 办 核 可 以 指定 一 个 页 的 物理 元 址 和 其 存 


取 权 限 , 而 不 用 指定 页 所 包含 的 全 部 线性 地 址 的 存 取 权限 。 我 们 遵循 通常 习惯 , 使 用 术 
“页 ” 既 指 一 组 线性 地 址 ， 又 指 包含 在 这 组 地 址 中 的 数据 。 
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分 页 单元 把 所 有 的 RAM 分 成 固定 长度 的 页 并 (page frame) (有 时 做 物理 页 ) 。 每 一 
个 页 框 包含 一 个 页 (page )， 也 就 是 说 一 个 页 框 的 长 及 障 一 致 ， 
存 的 一 部 分 ， 因此 也 是 一 个 存储 区 域 区 分 一 页 和 一 个 页 杠 是 很 重要 的 ， 前 者 只 是 一 个 
数据 块 ， 可 以 存放 在 任何 页 框 或 磁盘 中 。 


把 线性 地 址 映射 到 物理 地 址 的 数据 结构 称 为 页 表 (page table)。 页 表 存 放 在 主 存 中 , 并 
在 启用 分 页 单元 之 前 必须 由 内 核对 页 表 进 行 适当 的 初始 化 。 


从 80386 开始 ， 所 有 的 80x86 处 理 器 都 支持 分 页 ， 它 通过 设置 cr0 寄存 器 的 PG 标志 启 
用 。 当 PG=0 时 ,线性 地 址 就 被 解释 成 物理 地 址 。 


~— 





常规 分 页 
从 80386 起 ，Intel 处 理 器 的 分 页 单元 处 理 4KB 的 页 。 


32 位 的 线性 地 址 被 分 成 3 个 域 : 


Directory (目录 ) 
最 高 10 位 


Table (页 责 ) 
中 间 10 位 


Offset ( 偏 移 重 ) 
最 低 12 位 


线性 地 址 的 转换 分 两 步 完 成 ， 每 一 步 都 基于 一 种 转换 表 ， 第 一 种 转换 表 称 为 页 目录 表 
(page directory)， 第 二 种 转换 表 称 为 页 表 (page table) ( 注 1)。 


使 用 这 种 二 级 模式 的 目的 在 于 减少 每 个 进程 页 表 所 需 RAM 的 数量 。 如 果 使 用 简单 的 一 
级 页 表 ， 那 将 需要 高 达 2” 个 表 项 (也 就 是 ， 在 每 项 4 个 字 节 时 ,需要 4MB RAM) 来 
表示 每 个 进程 的 页 表 (如 果 进 程 使 用 全 部 4GB 线性 地 址 空间 ) ， 即 使 一 个 进程 并 不 使 用 
那个 范围 内 的 所 有 地 址 。 二 级 模式 通过 只 为 进程 实际 使 用 的 那些 虚拟 内 存 区 请 求 页 表 来 
减少 内 存 容量 。 


每 个 活动 进程 必须 有 一 个 分 配给 它 的 页 目录 。 不 过 , 没有 必要 马上 为 进程 的 所 有 页 表 都 
分 配 RAM。 只 有 在 进程 实际 需要 一 个 页 表 时 才 给 该 页 表 分 配 RAM 会 更 为 有 效率 。 


注 1 : 在 接 下 来 的 讨论 中 ， 小 写 的 “page table” 表 示 保 存 线性 地 址 和 物理 地 址 之 间 映 射 的 页 ， 
而 利用 “Page Table” 表 示 在 上 层 页 表 中 的 页 。 
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正在 使 用 的 页 目录 的 物理 地 址 存放 在 控制 寄存 器 cr3 中 。 线 性 地 址 内 的 Directory 字段 
决定 页 目录 中 的 有 目 ; 录 项 指向 适当 的 页 表 。 地 址 的 Table 字段 依 次 又 决定 页 表 
9 表 项 ， 而 表 项 含有 页 所 在 页 框 的 物理 地 址 。Offset 字段 决定 页 框 内 的 相对 位 置 ( 见 

















2-7: 80x86 处 理 器 的 分 页 


Directory 字段 和 Table 字段 都 是 10 位 长 因此 页 目 孙 和 页 表 都 可 以 多 达 1024 项。 那么 
一 个 页 目录 可 以 寻 址 到 高 达 1024 x 1024 x 4096=2: 个 存储 单元 ， 这 和 你 对 32 位 地 址 
所 期 望 的 一 样 。 


页 目 永 项 和 页 表 项 有 同样 的 结构 ， 每 项 都 包含 下 面 的 字段 : 


Present 本 起 
如 果 被 置 为 1!， 所 指 的 页 (或 页 表 ) 就 在 主 存 中 ， 如果 该 标志 为 0， 则 这 一 页 不 在 
主 存 中 ,此 时 这 个 表 项 剩余 的 位 可 由 操作 系统 用 于 自己 的 目的 。 如 果 执 行 一 个 地 址 
转换 所 需 的 页 表 项 或 页 目录 项 中 Present 标志 被 清 0， 那么 分 页 单元 就 把 该 线性 
地 址 存放 在 控制 寄存 器 cr2 中 , 并 产生 14 号 异常 ; 缺 页 异常 。( 我 们 将 在 第 十 七 章 
中 看 到 Linux 如 何 使 用 这 个 字段 。) 

包含 页 碟 物 理 地 址 最 高 20 位 的 字段 
由 于 每 一 个 页 框 有 4KB 的 容量 ， 它 的 物理 地 址 必须 是 4096 的 倍数 ， 因 此 物理 地 址 


内 存 寻 址 53 


的 最 低 12 位 总 是 为 0。 如 有 果 这 个 字段 指向 一 个 页 目录 ， 相 应 的 页 框 就 含有 一 个 页 
表 ， 如 果 它 指向 一 个 页 表 ， 相 应 的 页 框 就 含有 一 页 数据 。 

Accessed 不 去 
每 当 分 页 单元 对 相应 页 框 进行 寻 址 时 就 设置 这 个 标志 。 当 选中 的 页 被 交换 出 去 时 ， 
这 一 标志 就 可 以 由 操作 系统 使 用 。 分 页 单元 从 来 不 重 置 这 个 标志 ,而 是 必须 由 操作 
系统 去 做 。 

Dirty 标志 
只 应 用 于 页 表 项 中 。 每 当 对 一 个 页 框 进行 写 操作 时 就 设置 这 个 标志 。 与 Accessed 
示 志 一 样 , 当选 中 的 页 被 交换 出 去 时 , 这 一 标志 就 可 以 由 操作 系统 使 用 。 分 页 单元 
从 来 不 重 置 这 个 标志 ， 而 是 必须 由 操作 系统 去 做 。 | 

Read/Write 标志 
含有 页 或 页 表 的 存 取 权限 (Read/Write 或 Read) (参阅 本 章 后 面 “硬件 保护 方案 ” 
= 

User/Supervisor 标志 
含有 访问 页 或 页 表 所 需 的 特权 级 (参见 后 面 的 “硬件 保护 方案 ”一 节 )。 

PCD 和 和 PWT 标志 
控制 硬件 高 速 缓存 处 理 页 或 页 表 的 方式 (参见 本 章 后 面 “硬件 高 速 缓 存 ” 一 节 )。 

Page Size 标志 
只 应 用 于 页 目录 项 。 如 果 设 置 为 1， 则 页 目录 项 指 的 是 2MB 或 4MB 的 页 框 (参见 
下 = 

Global 夺 志 
只 应 用 于 页 表 项 。 这 个 标志 是 在 Pentium Pro 中 引入 的 , 用 来 防止 常用 页 从 TLB ( 译 
注 2) 高 速 缓存 中 刷新 出 去 [参阅 本 章 后 面 “转换 后 援 缓 冲 占 (TLB)“ 一 节 ]。 只 
有 在 cr4 寄存 器 的 页 全 局 启用 (Page Global Enable ，PGE) 标志 置 位 时 这 个 标 
志 才 起 作用 。 


扩展 分 页 


从 Pentium 模 型 开始 ，80x86 微 处 理 器 引入 了 扩展 分 而 (extended paging), 它 企 话 页 框 
大 小 为 4MB 而 不 是 4KB ( 见 图 2-8)。 扩 展 分 页 用 于 把 大 段 连续 的 线性 地 址 转换 成 相应 








译注 2: TLB 的 全 称 为 Translation Lookaside Buffer， 这 是 IJBM 的 叫 法 ， 有 时 也 叫 联 想 内 让 
(Associative Memory) ， 人 俗称“ 快 表 `。 


2 二 


的 物理 地 址 ， 在 这 些 悄 况 下 ， 内核 可 以 不 用 中 但 进行 地 址 转换 ， 从 而 市 省 内 存 并 保 
留 TLB 项 [参阅 “转换 后 援 缓冲 器 (LTB)” 一 市 ]。 







线性 地 址 
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图 2-8: 扩展 分 页 
正如 前 面 所 述 , 通过 设置 页 目录 项 的 Page Size 标 志 启 用 扩展 分 页 功能 。 在 这 种 情况 
下 ， 分 页 单元 把 32 位 线性 地 址 分 成 两 个 字段 : 


Directory 
最 高 10 位 


Offset 
其 余 22 位 


扩展 分 忠和 正常 分 页 的 页 目录 项 基本 相同 ， 除了: 
e Page Size 标志 必须 被 设置 。 


。 20 位 物理 地 址 字段 只 有 最 商 10 位 是 有 意义 的 。 这 是 因为 每 一 个 物理 地 址 都 古 在 以 
4MB 为 边界 的 地 方 开始 的 ， 故 这 个 地 址 的 最 低 22 位 为 0。 


通过 设置 cr4 处 理 器 寄存 器 的 PSE 标志 能 使 扩展 分 页 与 常规 分 页 共存 。 


护 方案 















硬件 保 


分 由 7 案 不 同 。 尽管 80x86 处 理 器 允许 一 个 段 使 用 4 种 可 能 的 特 
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权 级 别 ， 但 与 页 和 页 表 相 关 的 特权 级 只 有 两 个 ， 因 为 特权 由 前 面 “常规 分 页 ”一 节 中 
所 提 到 的 User/Supervisor 标 志 所 控制 。 若 这 个 标志 为 0,， 只 有 当 CPL 小 于 3 (这 意 
味 着 对 于 Linux 而 言 ， 处 理 器 处 于 内 核 态 ) 时 才能 对 页 寻 址 ， 若 该 标志 为 1， 则 总 能 对 
页 寻 址 。 


此 外 ,与 慌 的 3 种 存 取 权限 (该 。 写 。 执行} 不同 的 是 ,页 的 存 有 污 ， 写 ).。 
如 果 页 目录 项 或 页 表 项 的 Read/Write 标 志 等 于 0， 说 明 相应 的 页 表 或 页 是 只 读 的 ， 否 则 
是 可 读 写 的 ( 注 2)。 


常规 分 页 举例 

这 个 简单 的 例子 将 有 助 于 阔 明 常规 分 页 是 如 何 工作 的 ,我 们 假定 内 核 已 给 一 个 正在 运行 
的 进程 分 配 的 线性 地 址 空间 范围 是 0x20000000 到 0x2003ffff ( 注 3)。 这 个 空间 正好 
由 64 页 组 成 。 我 们 不 必 关 心包 含 这 些 页 的 页 框 的 物理 地 址 , 事实 上 , 其 中 的 一 些 页 甚至 
可 能 不 在 主 存 中 。 我 们 只 关注 页 表 项 中 剩余 的 字段 。 


让 我 们 从 分 配给 进程 的 线性 地 址 的 最 高 10 位 《分 页 单元 解释 为 Directory 字段 ) 开始 。 

这 两 个 地 址 都 以 2 开头 后 面 跟着 0， 因 此 高 10 位 有 相同 的 值 ， 即 0x080 或 十 进 制 的 128。 

因此 , 这 两 个 地 址 的 Directory 字段 都 指向 进程 页 目录 的 第 129 项 。 相应 的 目录 项 中 必须 

包含 分 配给 该 进程 的 页 表 的 物理 地 址 ( 见 图 2-9)。 如 果 没 有 给 这 个 进程 分 配 其 它 的 线性 

地 址 ， 则 页 目录 的 其 余 1023 项 都 填 为 0。 

中 间 10 位 的 值 ( 即 Table 字段 的 值 ) 范围 从 0 到 0x03f， 或 士 进 制 的 从 0Q 到 63。 因 而 _ 

只 有 页 表 的 前 64 个 表 项 是 有 意义 的 ， 其 余 960 个 表 项 都 填 0。 

假设 进程 需要 读 线性 地 址 0x20021406 中 的 字 节 。 这 个 地 址 由 分 页 单元 按 下 面 的 方法 处 理 : 

1. Directory 字段 的 0x80 用 于 选择 页 目录 的 第 0x80 目录 项 ,此 目录 项 指向 和 该 进程 
的 页 相关 的 页 表 。 

2. _ Table 字段 0x21 用 于 选择 页 表 的 第 0x21 表 项 ,此 表 项 指向 包含 所 需 页 的 页 框 。 
最 后 ,Offet 字段 0x406 用 于 在 目标 页 框 中 读 偏 移 量 为 0x406 中 的 字 节 。 


注 2; 新 的 Intel Pentium 4 处 理 器 在 每 个 64 位 页 表 项 中 增加 了 一 个 NX (No eXecute) 标志 [ 必 
须 激 活 PAE， 参 见 本 章 后 面 的 “物理 地 址 扩展 (PAE) 分 页 机 制 ” 一 节 ] 。Linux 2.6.11 
支持 这 个 硬件 特性 。 


注 3: 正如 我 们 在 后 面 章节 所 看 到 的 那样 ， 3GB 线性 地 址 空间 是 一 个 上 限 , 但 是 用 户 态 进程 只 
允许 引用 其 中 的 一 个 子 集 。 
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1023 (0x3ff) 1023 {0x3ff) 


64 (0x040) 
63 (Ox03F) 





图 2-9: 分 页 的 例子 


如 未 由 表 第 0x21 表 项 的 Present 标记 为 0， 则 此 页 束 不 在 主 存 中 , 在 这 种 情况 下 , 分 
页 单元 在 线性 地 址 转换 的 同时 产生 一 个 缺 页 异常 。 无 论 何 时 ， 当 进程 试图 访问 限定 在 


eenhab airlinemediin ila 都 将 产生 一 个 缺 页 异常 ， 因 为 
这 些 页 表 项 都 填充 了 0， 尤 其 是 它们 的 Present 标志 都 被 清 0。 


物理 地 址 扩展 (PAE) 分 页 机 制 


处 理 器 所 支持 的 RAM 容量 受 连接 到 地 址 总 线 上 的 地 址 党 有 丢 数 限制 。 早期 Intel 处 理 器 从 
80386 到 Pentium 使 用 32 位 物理 地 址 。 从 理论 上 讲 , 这 样 的 系统 上 可 以 安装 高 达 4GB 的 
RAMI 而 实际 上 , 由 于 用 户 进程 线性 地 址 空间 的 需要 , 内 核 不 能 直接 对 1GB 以 上 的 RAM 
进行 寻 址 ， 我 们 将 会 在 后 面 “Linux 中 的 分 页 ”一 节 中 看 到 这 一 点 。 


然而 ,大 型 服务 器 需要 大 于 4GB 的 RAM 来 同时 和 运行 数 以 千 计 的 进程 , 近 几 年 这 对 Intel 
造成 了 压力 ， 所 以 必须 扩展 32 位 80x86 结构 所 支持 的 RAM 容量 


-OO 









me 通过 在 必 的 处 理 吕 上 把 管 基数 从 32 增 加 到 36 已 经 凡 尼 这些 各 记 。 人 Pentium Pro 
开始 ,Intel 所 有 处 理 盔 现在 寻 址 能 力 达 2 = 64GB。 不 过 ,只 有 引入 一 种 新 的 分 页 机 制 
反 32 位 线性 地 址 转换 为 36 位 物理 : ee 所 增加 的 物理 地 址 。 






从 Pentium Pro 处 理 器 开始 、Intel 引入 一 种 叫做 物理 地 址 扩展 (Physical Address 
Extiension ，PAE) 的 机 制 。 另 外 一 种 叫做 页 大 小 扩展 [Page Size Extension (PSE-36)] 
的 机 制 在 Pentium I 处 理 器 中 引入 , 但 是 Linux 并 没有 采用 这 种 机 制 , 因而 我 们 在 本 书 
中 不 做 进一步 讨论 。 


授 过 设置 cr4 控制 寄 存 器 中 的 物理 地 址 扩展 (PAE) 标志 激活 PAE。 页 目录 项 中 的 页 大 
小 标志 PS 启用 大 尺寸 页 (在 PAE 启用 时 为 2MB ) 。 
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Intel 为 了 支持 PAE 已 经 改变 了 分 页 机 制 。 


64GB 的 RAM 被 分 为 2 个 页 框 ， 页 表 项 的 物理 地 址 字段 从 20 位 扩展 到 了 24 位 。 
因为 PAE 页 表 项 必须 包含 12 个 标志 位 (在 前 面 “ 常 规 分 页 ”一 节 已 描述 ) 和 24 个 
物理 地 址 位 ， 总 数 之 和 为 36, 页 表 项 大 小 从 32 位 变 为 64 位 增加 了 一 倍 。 结 果 , 一 
个 4KB 的 页 表 包 含 512 个 表 项 而 不 是 1024 个 表 项 。 

引入 一 个 叫做 页 目录 指针 表 (Page Directory Pointer Table，PDPT) 的 页 表 新 级 
别 ， 它 由 4 个 64 位 表 项 组 成 。 

cr3 控制 寄存 器 包含 一 个 27 位 的 页 目录 指针 表 (PDPT) 基地 址 字段 。 因 为 PDPT 
存放 在 RAM 的 前 4GB 中 ,并 在 32 字 节 (2-) 的 倍数 上 对 齐 ， 因 此 27 位 足以 表示 
这 种 表 的 基地 址 。 

当 把 线性 地 址 映射 到 4 KB 的 页 时 (页 目录 项 中 的 PS 标志 清 0)，32 位 线性 地 址 按 
下 列 方式 解释 ， 

CI3 


指向 一 个 PDPT 
位 31 一 30 

指向 PDPT 中 4 个 项 中 的 一 个 
位 29 一 21 

指向 页 目录 中 512 个 项 中 的 一 个 
位 20 一 72 

指向 页 表 中 512 项 中 的 一 个 
位 717 一 0 

4KB 页 中 的 偏 移 量 
当 把 线性 地 址 映射 到 2MB 的 页 时 《页 目录 项 中 的 PS 标志 置 为 1)，32 位 线性 地 址 
按 下 列 方式 解释 : 
cr3 

指 回 一 个 PDPT 
位 了 7 一 30 

指向 PDPT 中 4 个 项 中 的 一 个 
位 29 一 21 

指向 页 目录 中 512 个 项 中 的 一 个 
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位 20 一 0 
2MB 页 中 的 偏 移 量 


总 之 , 一旦 cr3 被 设置 ,就 可 能 寻 址 高 达 4GB RAM。 如 果 我 们 希望 对 更 多 的 RAM 寻 
址 ， 就 必须 在 cr3 中 放置 一 个 新 值 ， 或 改变 PDPT 的 内 容 。 然 而 ,使 用 PAE 的 主要 问题 
是 线性 地 址 仍然 是 32 位 长 ,这 就 迫使 内 核 编程 人 员 用 同一 线性 地 址 映射 不 同 的 RAM 区 .。 
在 后 面 的 “ 当 RAM 大 于 4096MB 时 的 最 终 内 核 页 表 ” 一 节 中 ， 我 们 将 描述 启用 PAE 时 
Linux 如 何 初 始 化 页 表 。 很 明显 ，PAE 并 没有 扩大 进程 的 线性 地 址 空间 ， 因 为 它 只 处 理 
物理 地 址 。 此 外 ,只 有 内 核能 够 修改 进程 的 页 表 ， 所 以 在 用 户 态 下 运行 的 进程 不 能 使 用 
大 于 4GB 的 物理 地 址 空间 。 另 一 方面 ，PAE 允许 内 核 使 用 容量 高 达 64GB 的 RAM， 从 
而 显著 增加 了 系统 中 的 进程 数量 。 


64 位 系统 中 的 分 页 


我 们 在 前 面 几 节 已 经 看 到 , 32 位 微 处 理 器 普遍 采用 两 级 分 页 ( 注 4)。 然 而 两 级 分 页 并 不 
适用 于 采用 64 位 系统 的 计算 机 。 让 我 们 用 一 种 思维 实验 来 解释 为 什么 : 


首先 假设 一 个 大 小 为 4KB 的 标准 页 。 因 为 1KB 覆盖 2 个 地 址 的 范围 ，4KB 覆盖 22 个 
地 址 ， 所 以 offset 字段 是 12 位 。 这 样 线性 地 址 就 剩 下 52 位 分 配给 Table 和 Directory 字 
段 。 如 果 我 们 现在 决定 仅仅 使 用 64 位 中 的 48 位 来 寻 址 (这 个 限制 仍然 使 我 们 自在 地 拥 
有 256TB 的 寻 址 空间 ! )， 剩 下 的 48-12 = 36 位 将 被 分 配给 Table 和 Directory 字段 。 如 
果 我 们 现在 决定 为 两 个 字段 各 预 留 18 位 , 那么 每 个 进程 的 页 目录 和 页 表 都 含有 228 个 项 ， 
即 超过 256000 个 项 。 


由 于 这 个 原因 , 所 有 64 位 处 理 器 的 硬件 分 页 系统 都 使 用 了 额外 的 分 页 级 别 。 使 用 的 级 别 
数量 取决 于 处 理 器 的 类 型 。 表 2-4 总 结 了 一 些 Linux 所 支持 64 位 平台 使 用 的 硬件 分 页 系 
统 的 主要 特征 .对 于 与 平台 名 称 相 关 的 硬件 的 简要 描述 请 参见 第 一 章 的 ”硬件 的 依赖 性 
一 节 。 

表 2-4: 一 些 64 位 系统 的 分 页 级 别 

平台 名称 页 大 小 登 址 使 用 的 位 数 分 页 级 别 数 ， 线性 地 址 分 级 
alpha 8 KB 43 3 10+10+10+13 


ia64 4 KB’ 39 3 9+9+9+12 


注 4: 80x86 处 理 器 中 引入 的 第 三 级 分 页 在 PAE 沾 活 时 只 是 将 页 目录 项 和 页 表 项 的 数目 从 1024 
个 减少 到 了 S$12 个 。 这 样 就 将 页 表 项 从 32 位 扩大 到 了 64 位， 于 是 它们 能 够 存放 物理 地 
址 的 最 元 24 位 。 
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表 2-4: 一 些 64 位 系统 的 分 页 级 别 ( 续 ) 
平台 名 称 页 大 小 寻 址 使 用 的 位 数 分 页 级 别 数 线性 地 址 分 级 


ppc64 4 KB 41 3 10+10+9+12 
sh64 4 KB 4] 3 1]0+1I0+9+12 
x86_64 4 KB 48 4 9+9+9+9+12 


a. 该 体系 结构 支持 不 同 的 页 大 小 ; 我 们 选择 了 一 种 Linux 支持 的 典型 页 大 小 。 


稍 后 我 们 将 会 在 本 章 的 “Linux 中 的 分 页 ”一 节 看 到 ，Linux 成功 地 提供 了 一 种 通用 分 页 
模型 ， 它 适合 于 绝 大 多 数 所 支持 的 硬件 分 页 系统 。 


硬件 高 速 缓存 

当今 的 微 处 理 器 时 钟 频率 接近 几 个 GHz， 而 动态 RAM (DRAM) 芯片 的 存 取 时 间 是 时 
钟 周期 的 数 百倍 。 这 意味 着 ， 当 从 RAM 中 取 操作 数 或 向 RAM 中 存放 结果 这 样 的 指令 执 
行 时 ，CPU 可 能 等 待 很 长 时 间 。 











为 了 缩小 CPU 和 RAM 之 间 的 速度 不 匹配 ， 引 入 了 硬件 高 速 缓存 内 存 (hardware cache 
memory) 。 硬 件 高 速 缓存 基于 著名 的 局 部 性 原理 (localiip principle)， 该 原理 既 适 用 程 
序 结构 和 也 适用 数据 结构 。 这 表明 由 于 程序 的 循环 结构 及 相关 数组 可 以 组 织 成 线性 数组 ， 
最 近 最 常用 的 相 邻 地 址 在 最 近 的 将 来 又 被 用 到 的 可 能 性 极 大 。 因 此 ， 引 入 小 而 快 的 内 存 
来 存放 最 近 最 常 使 用 的 代码 和 数据 变 得 很 有 意义 。 为 此 ，80x86 体 系 结构 中 引入 了 一 个 
叫 行 (line) 的 新 单位 , 行 由 几 十 个 连续 的 字 节 组 成 , 它们 以 脉冲 突 发 模式 (burst mode ) 
在 慢 速 DRAM 和 快速 的 用 来 实现 高 速 缓存 的 片上 静态 RAM (SRAM ) 之 间 传 送 , 用 来 实 
现 高 速 缓存 。 


高 速 缓存 再 被 细 分 为 行 的 子 集 。 在 一 种 极端 的 情况 下 ， 高 速 缓存 可 以 是 直接 映射 的 
(direct mapped), 这 时 主 存 中 的 一 个 行 总 是 存放 在 高 速 缓存 中 完全 相同 的 位 置 。 在 另 一 
种 极端 情况 下 ， 高 速 缓存 是 充分 关联 的 (fully associative)， 这 意味 着 主 存 中 的 任意 一 
个 行 可 以 存放 在 高 速 缓存 中 的 任意 位 置 。 但 是 大 多 数 高 速 缓存 在 某 种 程度 上 是 N- 路 组 关 
联 的 (N-way sel associafive)， 意 味 着 主 存 中 的 任意 一 个 行 可 以 存放 在 高 速 缓存 N 行 中 
的 任意 一 行 中 。 例 如， 内存 中 的 一 个 行 可 以 存放 到 一 个 2 路 组 关联 高 速 缓存 两 个 不 同 的 
行 中 。 


如 图 2-10 所 示 , 高 速 缓 存单 元 插 在 分 页 单元 和 主 内 存 之 间 。 它 包含 一 个 硬件 高 速 缓存 内 
存 (hardware cache memory) 和 一 个 高 速 缓 存 控制 如 (cachpe controlier)。 高 速 缓存 
内 存 存 放 内 存 中 真正 的 行 。 高 速 缓存 控制 器 存放 一 个 表 项 数组 , 每 个 表 项 对 应 高 速 缓存 
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内 存 中 的 一 个 行 。 每 个 表 项 有 一 个 标签 (4a8) 和 描述 高 速 缓存 行 状态 的 儿 个 标志 (flag)。 
这 个 标签 由 一 些 位 组 成 ,这 些 位 让 高 速 缓存 控制 器 能 够 辨别 由 这 个 行当 前 所 映射 的 内 存 
单元 。 这 种 内 存 物 理 地 址 通常 分 为 3 组 : 最 高 几 位 对 应 标签 ， 中国 几 位 对 应 高 速 缓存 控 
制 器 的 子 集 索引 ， 最 低 几 位 对 应 行内 的 仿 移 量 。 


DRAM 
主 存 











图 2-10: 处 理 器 硬件 高 速 缓存 


当 访 问 一 个 RAM 存 储 单 元 时 ，CPU 从 物理 地 址 中 提取 出 子 集 的 索引 号 并 把 子 集 中 所 有 
行 的 标签 与 物理 地 址 的 高 几 位 相 比 较 。 如 果 发 现 某 一 个 行 的 标签 与 这 个 物理 地 址 的 高 位 
相同 , 则 CPU 命中 一 个 高 速 缓存 (cache hit); 人 奋 则 , 高速 缓存 没 有 命中 (cache miss)。 


当 命中 一 个 高 速 缓存 时 ， 高速 缓存 控制 器 进行 不 同 的 操作 ,具体 取决 于 存 取 类 型 。 对 于 
读 操作 ,控制 器 从 高 速 缓 存 行 中 选择 数据 并 送 到 CPU 寄存 器 ， 不 需要 访问 RAM 因而 节 
约 了 CPU 时 间 , 因此 ,高速 缓存 系统 起 到 了 其 应 有 的 作用 。 对 于 写 操作 , 控制 器 可 能 采 
用 以 下 两 个 基本 策略 之 一 ， 分 别称 之 为 通 写 (write-through) 和 回 写 (write-back)。 在 
通 写 中 ,控制 器 总 是 既 写 RAM 也 写 高 速 缓存 行 ,为 了 提高 写 操作 的 效率 关闭 高 速 缓存 。 
回 写 方式 只 更 新 高 速 缕 存 行 ， 不 改变 RAM 的 内 容 ， 提供 了 更 快 的 功效 。 当 然 ， 回 写 结 
束 以 后 , RAM 最 终 必 须 被 更 新 。 只 有 当 CPU 执 行 一 条 要 求 刷新 高 速 缓存 表 项 的 指令 时 ， 
辟 者 当 一 个 FLUSH 硬 件 信号 产生 时 (通常 在 高 速 缓存 不 命中 之 后 ) ， 高 速 缓存 控制 益 才 
把 高 速 缓存 行 写 回 到 RAM 中 。 


当 高 速 缓 存 没 有 命中 时 , 高 速 缓存 行 被 写 回 到 内 存 中 ,如 果 有 必要 的 话 , 把 正确 的 行 从 
RAM 中 取出 放 到 高 速 缓存 的 表 项 中 。 


多 处 理 器 系统 的 每 一 个 处 理 器 都 有 一 个 单独 的 硬件 高 速 缓存 ,因此 它们 需要 额外 的 硬件 
电路 用 于 保持 高 速 缓存 内 容 的 同步 。 如 图 2-11 所 示 ， 每 个 CPU 都 有 自己 的 本 地 硬件 高 
速 缓存 。 但 是 ,现在 更 新 变 得 更 耗 时 : 只 要 一 个 CPU 修改 了 它 的 硬件 高 速 缓存 ， 它 就 必 
须 检 查 同样 的 数据 是 否 包 含 在 其 他 的 硬件 高 速 缓存 中 ;如果 是 , 它 必 须 通 知 其 他 CPU 用 
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适当 的 值 对 其 更 新 。 篆 把 这 种 活动 叫做 高 速 缓存 侦 昕 (cachpe saoopin8g )。 值 得 庆幸 的 是 ， 
所 有 这 一 切 都 在 硬件 级 处 理 ， 内 核 无 需 关 心 。 


CPUD CPU 7 
速 缓存 速 绥 存 


EE EE EE 








2-11: 双 处 理 问 中 的 高 速 缓 存 


高 速 缓存 技术 正在 快速 向 前 发 展 。 例 如, 第 一 代 Pentiuom 芯片 包含 一 颗 称 为 L1-cache 的 
片上 高 速 缓存 。 近 期 的 芯片 又 包含 另外 的 容量 更 大 、 速 度 较 慢 ， 称 之 为 上 2-cachpe，Z3- 
cachne 等 的 片上 高 速 缓存 。 多 级 高 速 缓存 之 四 的 一 致 性 是 由 硬件 实现 的 。Linux 忽 略 这 些 
硬件 细节 并 假定 只 有 一 个 单独 的 高 速 缓存 。 


处 理 器 的 c 0 寄存 器 的 CD 标志 位 用 来 启用 或 禁用 曾 i 速 缓存 电路 。 这 个 寄存 器 中 的 分 标 - 
志 指明 高 速 缓存 是 通 写 还 是 回 写 策略 。 









Pentium 处 理 器 高 速 缓存 的 男 一 个 有 趣 的 特点 是 ， 让 操作 系统 把 不 同 的 高 速 缓存 管理 策 
略 与 每 一 个 页 框 相 关联 。 为 此 , 每 一 个 页 目录 项 和 每 一 个 页 表 项 都 包含 两 个 标志 ; PCD 
(Page Cache Disabit) 标志 指明 当 访问 包 售 在 这 个 页 框 中 的 数据 时 ,高 速 缓存 功能 必须 
被 启用 还 是 禁用 。PFWT (page Write-Through) 标志 指明 当 把 数据 写 到 页 框 时 ， 必 须 使 
用 的 策略 是 回 写 策略 还 是 通 写 策略 。Linux 清除 了 所 有 页 目录 项 和 页 表 项 中 的 PCD 和 
PWT 标志 ， 结 果 是 : 对 于 所 有 的 页 框 都 局 用 高 速 缕 存 ， 对 于 写 操作 总 是 采用 回 写 策略 。 


转换 后 援 缓冲 器 (TLB 


除了 通用 硬件 高 速 缓存 之 外 ，80x86 处 理 粥 还 包含 了 另 一 个 称 为 转换 后 援 缓冲 器 或 TLB 
(Transilation Lookaside Buffer) 的 高 速 缕 存 用 于 加 快 线性 地 址 的 转换 。 当 一 个 线性 地 
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址 被 第 一 次 使 用 时 ， 通 过 慢 速 访 同 RAM 中 的 页 表 计 算出 相应 的 物理 地 址 。 同 了 时， 物理 
地 址 被 存放 在 一 个 TLB 表 项 (TLB entry) 中 ,以便 以 后 对 同一 个 线性 地 址 的 引用 可 以 
快速 地 得 到 转换 。 


在 多 处 理 系 统 中 ,每 个 CPU 都 有 自己 的 TLB, 这 叫做 该 CPU 的 本 地 TLB。 与 硬件 高 速 
缓存 相反 ,TLB 中 的 对 应 项 不 必 同 步 , 这 是 因为 运行 在 现 有 CPU 上 的 进程 可 以 使 同一 线 
性 地 址 与 不 同 的 物理 地 址 发 生 联系 。 


当 CPU 的 cr3 控制 寄存 器 被 修改 时 ,硬件 自动 使 本 地 TLB 中 的 所 有 项 都 无 效 ， 这 是 因 
为 新 的 一 组 页 表 被 启用 而 TLB 指向 的 是 旧 数 据 。 


Linux 中 的 分 页 


Linux 采用 了 一 种 同时 适用 于 32 位 和 64 位 系统 的 普通 分 页 模型 。 正 像 前 面 “64 位 系统 
中 的 分 页 ”一 布 所 解释 的 那样 ， 两 级 页 表 对 32 位 系统 来 说 已 经 足够 了 ,， 但 64 位 系统 需 
要 更 多 数量 的 分 页 级 别 。 直 到 2.6.10 版 本 ，Linux 采用 三 级 分 页 的 模型 。 从 2.6.11 版 本 
开始 ， 采 用 了 四 级 分 页 模型 ( 注 5)。 图 2-12 中 展示 的 4 种 页 表 分 别 被 为 : 


。 页 全 局 目录 (Page Global Directory ) 
。 页 上 级 目录 (Page Upper Directory ) 
。 页 中 国有 目录 (Page Middle Directory ) 
。 页 表 (Page Table ) 


页 全 局 目录 包含 若干 页 上 级 目录 的 地 址 ,页 上 级 目 演 又 依次 包含 若干 页 中 间 目 录 的 地 址 ， 
而 页 中 间 目 录 又 包含 若干 页 表 的 地 址 。 每 一 个 页 表 项 指向 一 个 页 框 。 线性 地 址 因此 被 分 
成 五 个 部 分 。 图 2-12 没 有 显示 位 数 , 因 为 每 一 部 分 的 大 小 与 具体 的 计算 机 体系 结构 有 关 。 


对 于 没有 局 用 物理 地 址 扩展 的 32 位 系统 ,两 级 页 表 已 经 足够 了 。Linux 通 过 使 “页 上 级 
目录 ”位 和 “页 中 辐 目 录 ” 位 全 为 0, 从 根本 上 取消 了 页 上 级 目录 和 和 页 中 间 目 录 字 段 。 不 
过 , 页 上 级 上 且 了 永和 页 中 国 目 永 在 指针 序列 中 的 位 置 被 保留 , 以 便 同 样 的 代码 在 32 位 系统 
和 64 位 系统 下 都 能 使 用 ,内核 为 页 上 级 目录 和 页 中 间 目 录 保 留 了 一 个 位 置 , 这 是 通过 把 
它们 的 页 目录 项 数 设 置 为 1, 并 把 这 两 个 目录 项 映射 到 页 全 局 目录 的 一 个 适当 的 目录 项 而 
实现 的 。 


注 5: 这 个 变化 用 来 全 力 支持 x86_64 平 台 使 用 的 对 线性 地 址 的 位 的 划分 (参见 表 2-4)。 
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线性 地 址 


GLOBAL DIR UPPERDIR | MIDDLEDIR TABLE OFFSET 














页 上 发 肯 水 


图 2-12， Linux 分 页 模式 





Cr3 








启用 了 物理 地 址 扩展 的 32 位 系统 使 用 了 三 级 页 表 。Linux 的 页 全 局 目录 对 应 80x86 的 页 
目录 指针 表 (PDPT)， 取消 了 页 上 级 目录 ， 页 中 间 目 录 对 应 80x86 的 页 目录 ，Linux 的 
页 表 对 应 80x86 的 页 表 。 


最 后 ，64 位 系统 使 用 三 级 还 古 四 级 分 页 取决 于 硬件 对 线性 地 址 的 位 的 划分 ( 见 表 2-4)。 


Linux 的 进程 处 理 很 大 程度 上 依赖 于 分 页 。 事 实 上 ， 线 性 地 址 到 物理 地 址 的 自动 转换 使 
下 面 的 设计 目标 变 得 可 行 : 


。 ”给 每 一 个 进程 分 配 一 块 不 同 的 物理 地 址 空间 , 这 确保 了 可 以 有 效 地 防止 寻 址 错误 。 


。 “区别 页 《 即 一 组 数据 ) 和 页 框 ( 即 主 存 中 的 物理 地 址 ) 之 不 同 。 这 就 允许 存放 在 某 
个 页 框 中 的 一 个 页 , 然后 保存 到 磁盘 上 , 以 后 重新 装 入 这 同一 页 时 又 可 以 被 装 在 不 
同 的 页 框 中 。 这 就 是 虚拟 内 存 机 制 的 基本 要 素 (参见 第 十 七 章 )。 


在 本 章 剩 余 的 部 分 ， 为 了 具体 起 见 ， 我 们 将 涉及 80x86 处 理 吕 使 用 的 分 页 机 制 。 


我 们 将 在 第 九 章 es 当 发 生 进 程 
切换 时 (参见 第 三 a ，Linux 把 cr3 控制 寄存 器 的 内 容 保 存在 前 一 个 
站 行进 得 的 搞 述 答 中 , 拓 | pee 因此 ， 
当 新 进程 重新 开始 在 CPU 上 执行 时 ， 分 页 单元 指向 一 组 正确 的 页 表 ，。 


把 线性 地 址 映射 到 物理 地 址 虽然 有 点 复杂 , 但 现在 已 经 成 了 一 种 机 械 式 的 任务 。 本 章 下 
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面 的 几 节 中 列举 了 一 些 比较 单调 乏味 的 函数 和 宏 ,它们 检索 内 核 为 了 查找 地 址 和 管理 表 
格 所 需 的 信息 ; 其 中 大 多 数 函 数 只 有 一 两 行 。 也 许 现 在 你 就 想 跳 过 这 部 分 ,但 是 知道 这 
些 函 数 和 安 的 功能 是 非常 有 用 的 ， 因 为 在 贯穿 本 书 的 讨论 中 你 会 经 常 看 到 它们 。 


线性 地 址 字段 
下 列 宏 简化 了 页 表 处 理 ， 


PAGE_SHIFT 
指定 Offset 字段 的 位 数 ， 当 用 于 80x86 处 理 器 时 ， 它 产生 的 值 为 12。 由 于 页 内 所 
有 地 址 都 必须 能 放 到 Offset 字 段 中 ， 因 此 80x86 系统 的 页 的 大 小 是 22=4096 字 节 。 
PAGE_SHIFT 的 值 为 12 可 以 看 作 以 2 为 底 的 页 大 小 的 对 数 。 这 个 宏 由 PAGE_SIZE 使 
用 以 返回 页 的 大 小 。 最 后 ，PRAGE_MRASK 宏 产 生 的 值 为 0xtftfffft000， 用 以 屏蔽 
Offset 字段 的 所 有 位 。 

PMD_ SHIEFT 
指定 线性 地 址 的 Offset 字 段 和 Table 字 段 的 总 位 数 ; 换 句 话说 ,是 页 中 间 目 录 项 可 
以 映射 的 区 域 大 小 的 对 数 。 PMD_SIZE 宏 用 于 计算 由 页 中 间 目 录 的 一 个 单独 表 项 所 
映射 的 区 域 大 小 ， 也 就 是 一 个 页 表 的 大 小 。PMD_MASK 宏 用 于 屏 项 Offset 字段 与 
Table 字段 的 所 有 位 。 


当 PAE 被 禁用 时 , PMD_SHIFT 产 生 的 值 为 22 (来 自 Offset 的 12 位 加 上 来 自 Table 
的 10 位 ), PMD_SIZE 产 生 的 值 为 2”* 或 41 MB, PMD_MASK 产 生 的 值 为 0xffc00000。 
相反 ， 当 PAE 被 激活 了 时，PMD_SHIFT 产生 的 值 为 21 (来 自 Offset 的 12 位 加 上 来 
自 Table 的 9 位 ), PMD_SIZE 产生 的 值 为 2*1 或 2 MB，PMD_ MASK 产生 的 值 为 
0xffe00000。 


大 型 页 不 使 用 最 后 一 级 页 表 , 所 以 产生 大 型 页 尺寸 的 LARGE_PAGE_SIZE 宏 等 于 
PMD_SIZE (2PMD_SHIFT)， 而 在 大 型 页 地 址 中 用 于 屏 藤 Offset 字段 和 Table 字 
7 段 的 所 有 位 的 LARGE_PAGE_MASK 宏 ， 就 等 于 PMD_MASK。 


PUD_SHIFT 
确定 页 上 级 目录 项 能 映射 的 区 域 大 小 的 对 数 ,- PUD_SIZE 宏 用 于 计算 页 全 局 目录 中 
的 一 个 单独 表 项 所 能 映射 的 区 域 大 小 。PUD_MASK 宏 用 于 屏 需 Offset 字 段 、Table 
字段 、Middle Air 字段 和 Upper Air 字段 的 所 有 位 。 
在 80x86 处 理 器 上 ，PUD_SHIFT 总 是 等 价 于 PMD_SHIFT， 而 PUD_SIZE 则 等 于 
4MB 或 2MB 

PGDIR_SHIFT 
确定 页 全 局 目录 项 能 映射 的 区 域 大 小 的 对 数 。 PGDIR_SIZE 宏 用 于 计算 页 全 局 目 
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录 中 一 个 单独 表 项 所 能 映射 区 域 的 大 小 。 PGDIR_MASK 宏 用 于 屏蔽 Offset、 Table、 
Middle Air 及 Upper Air 字段 的 所 有 位 。 


当 PAE 被 禁止 时 ，PGDIR_SHIEFT 产 生 的 值 为 22 (与 PMD_SHIFT 和 PUD_SHIFT 
产生 的 值 相同 )，PGDIR_SIZE 产生 的 值 为 2“ 或 4MB, 以 及 PGDIR_MASK 产 生 
的 值 为 0xffc00000。 相 有 反 ， 当 PAE 被 向 活 时 ，PGDIR_SHIFT 产生 的 值 为 30 
(12 位 Offset 加 9 位 Table 再 加 9 位 Middle Air) ，PGDIR_SIZE 产 生 的 值 为 23 
或 1 GB 以 及 PGDIR_MASK 产生 的 值 为 0xc0000000。 


PTRS_ PER_PTE, PTRS_PER_PMD, PTRS_PER_PUD 以 及 PTRS_PER_PGD 
用 于 计算 页 表 、 页 中 间 目 录 、 页 上 级 目录 和 页 全 局 目录 表 中 表 项 的 个 数 。 当 PAE 
被 禁止 时 ， 它 们 产生 的 值 分 别 为 1024，1，1 和 1024。 当 PAE 被 激活 时 ,产生 的 值 
分 别 为 512，512，1 和 4。 


页 表 处 理 


pte_t、pmd_t、pud_t 和 pgd_t 分 别 描述 页 表 项 、 页 中 间 目 录 项 、 页 上 级 目录 和 页 
全 局 目录 项 的 格式 。 当 PAE 被 激活 时 它们 都 是 64 位 的 数据 类 型 ,否则 都 是 32 位 数据 类 
型 。pgprot_t 是 另 一 个 64 位 (PAE 激活 时 ) 或 32 位 (PAE 禁用 时 ) 的 数据 类 型 ， 它 
表示 与 一 个 单独 表 项 相关 的 保护 标志 。 


五 个 类 型 转换 宏 (__pte、__pmd、.__pud、__pg9 和 __pgprot) 把 一 个 无 符号 整数 转换 
成 所 需 的 类 型 。 另 外 的 五 个 类 型 转换 宏 (pte_val、pmqd_val、pud_val、pgqd val 和 
pgprot_val) 执行 相反 的 转换 ， 即 把 上 面 提 到 的 四 种 特殊 的 类 型 转换 成 一 个 无 符号 整数 。 


内 核 还 提供 了 许多 宏和 图 数 用 于 读 或 修改 页 表 表 项 : 


。 ”如 果 相 应 的 表 项 值 为 0， 那 么 ， 宏 pte_none、pmdq_none、pud_none 和 pgd_none 
产生 的 值 为 1， 否 则 产生 的 值 为 0。 


e 宏 pte_clear、pmd_clear、pu9d_clear 和 pgd_clear 请 除 相 应 页 表 的 一 个 表 项 ， 
由 此 禁止 进程 使 用 由 该 页 表 项 映射 的 线性 地 址 。 ptep_get_anqd_clear() 函 数 清除 
一 个 页 表 项 并 返回 前 一 个 值 。 

。 set_pte、set_pmd、set_pud 和 set_pgd 癌 一 个 页 表 项 中 写 入 指定 的 值 。 
set_pte_atomic 与 set_pte 的 作用 相同 , 但 是 当 PAE 被 激活 时 它 同样 能 保证 64 
位 的 值 被 原子 地 写 入 。 

。 如 果 a 和 wb 两 个 页 表 项 指向 同一 页 并 且 指 定 相 同 的 访问 优先 级 ， 那 么 
pte_samela,b) 返 回 1， 人 否则 返回 0。 
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。 ”如 果 页 中 间 目 录 项 e 指 癌 一 个 大 型 页 (2MB 或 4MB), 那么 pmd_large(e) 返 回 
1， 否 则 返回 0。 


宏 pmd_bad 由 消 数 使 用 并 通过 输入 参数 传递 来 检查 页 中 间 目 录 项 。 如 果 目 录 项 指 问 一 个 
不 能 使 用 的 页 表 , 也 就 是 说 , 如 果 至 少 出 现 以 下 条 件 中 的 一 个 , 则 这 个 宏 产 生 的 值 为 1: 


. 页 不 在 主 存 中 (Present 标志 被 清除 )。 
。 ”页 只 允许 读 访问 (Read/Write 标 志 被 清除 )。 


。 Acessed 或 者 Dirty 位 被 清除 《对 于 每 个 现 有 的 页 表 ，Linux 总 是 强制 设置 这 些 
标志 )。 


pud_bad 宏和 pgd_bad 宏 总 是 产生 0。 没 有 定义 pte_bad 宏 ， 因 为 页 表 项 引用 一 个 
不 在 主 存 中 的 页 、 一 个 不 可 写 的 页 或 一 个 根本 无 法 访问 的 页 都 是 合法 的 。 


如 采 一 个 页 表 项 的 Present 标 志 或 者 Page Size 标 志 等 于 1, 则 pte_present 宏 产生 的 
值 为 1， 否则 为 0。 前 面 讲 过 页 表 项 的 Page Size 标 志 对 微 处 理 器 的 分 页 单元 来 讲 没 有 
意义 ， 然 而 ， 对 于 当前 在 主 存 中 却 又 没有 读 、 写 或 执行 权限 的 页 ， 内 核 将 其 Present 
和 Page Size 分 别 标记 为 0 和 和 1。 这样， 任何 试图 对 此 类 页 的 访问 都 会 引起 一 个 缺 页 异 
稍 ， 因 为 页 的 Present 标志 被 清 0， 而 内 核 可 以 通过 检查 Page Size 的 值 来 检测 到 
产生 异常 并 不 是 因为 缺 页 。 


如 果 相 应 表 项 的 Present 标志 等 于 1， 也 就 是 说 ， 如 果 对 应 的 页 或 页 表 被 载 入 主 存 ， 
pmd_present 宏 产 生 的 值 为 1。puaq_present 安 和 pgq_present 宏 产 生 的 值 总 是 1。 


表 2-5 中 列 出 的 函数 用 来 查询 页 表 项 中 任意 一 个 标志 的 当前 值 ， 除了 pte_file() 外 ， 
其 他 男 数 只 有 在 pte_present 返回 1 的 时 候 ， 才 能 正常 返回 页 表 项 中 任意 一 个 标志 。 


表 2-5: 读 页 标志 的 函数 


函数 名 称 说 明 

pte_user (| 读 User/Supervisor 标志 

pte_ read!() 读 User/Supervisor 标 志 (表示 80x86 处 理 器 上 的 页 不 受 读 的 保护 ) 
pte_writel() 读 Read/Write 标志 

Pte_exec ( ) 读 User/Supervisor 标 志 (80x86 处 理 器 上 的 页 不 受 代码 执行 的 保护 ) 
pte_dirty!{) 读 Dirty 标志 

pte_young ( ) 读 Accessed 标志 

Pte_file() 读 Dirty 标志 ( 当 Present 标志 被 清除 而 Dirty 标志 被 设置 时 ,页 


属于 一 个 非 线性 磁盘 文件 映射 ， 参 见 第 十 六 章 ) 
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表 2-6 列 出 的 另 一 组 国 数 用 于 设置 页 表 项 中 各 标志 的 值 。 

表 2-6; 设置 页 标志 的 函数 

疯 数 名 称 说 明 

设置 页 表 项 中 的 Page Size 和 Present 标志 
清除 Read/Write 标 志 

清除 User/Supervisor 标志 

清除 User/Supervisor 标志 

设置 Read/Write 标志 

设置 User/Supervisor 标志 


mk_pte_huge!() 
pte_wrprotect() 
pte._ rdprotect!) 
pte_exprotectt{) 
pte_mkwrite!() 
pte_mkread() 
设置 User/Supervisor 标志 
清除 Dirty 标志 


pte_ mkexec!() 


pte_mkclean{) 


pte_mkdirty!{() 
pte mkoldl() 
pte_mkyoung ( ) 


pte_moaQifty(Pp,V) 


设置 Dirty 标志 

清除 Accessea 标 志 〈 把 此 页 标记 为 未 访问 ) 
设置 Accessed 标 志 〈 把 此 页 标记 为 访问 过 ) 
把 页 表 项 p 的 所 有 访问 权限 设置 为 指定 的 值 v 


与 pte_wrprotect () 类 似 ， 但 作用 于 指向 页 表 项 的 指针 
如 果 Dirty 标志 被 设置 为 1， 则 将 页 的 存 取 权 限 设置 为 
指定 的 值 ， 并 调用 flush_tlb_page() 函 数 【参见 本 章 
“转换 后 援 缓 冲 器 (TLB )” 一 节 ] 
与 pte_mkdirty() 类 似 ， 但 作用 于 指 问 页 表 项 的 指针 
ptep test_and clear_dirty() 与 pte_mkclean() 类 似 ， 但 作用 于 指向 页 表 项 的 指针 并 
返回 Dirty 标志 的 旧 值 
ptep_test_and_clear_young() 与 pte_mkold() 类 似 ， 但 作用 于 指向 页 表 项 的 指针 并 返 
回 Accessed 标 志 的 旧 值 


ptep_set_wrprotect!() 


ptep_ set_access_flags() 


ptep_ mkdirty!() 


现在 , 我 们 来 讨论 表 2-7 中 列 出 的 宏 , 它们 把 一 个 页 地 址 和 一 组 保护 标志 组 合成 页 表 项 ， 
或 者 执行 相反 的 操作 ,从 一 个 页 表 项 中 提取 出 页 地 址 。 请 注意 这 其 中 的 一 些 宏 对 页 的 引 
用 是 通过 “页 描述 符 ” 的 线性 地 址 《参见 第 八 章 “ 页 描述 符 ” 一 节 ) ， 而 不 是 通过 该 页 
本 身 的 线性 地 址 。 


表 2-7: 对 页 表 项 操作 的 宏 


宏 名 称 说 明 


找到 线性 地 址 addr 对 应 的 目录 项 在 页 全 局 目录 中 的 
索引 《相对 位 置 ) 


pgd_index (addr) 


06 


表 2-7: 对 页 表 项 操作 的 宏 ( 续 ) 


宏 名 称 


pgd_offset (mm, addr) 


pgd_offset _k'(addr) 


pgd_page (pgd) 


pud_offset (pgd, addr) 


pud_page (pud) 


pmd_index (addr) 


pmd_offset (pud, addr) 


pmd_page (pmd) 


mk_pte(p,prot) 


pte_index (addr) 


pte_offset _ kernel {dir,addr) 


po: 
1 
壕 


说 明 

接收 内 存 描述 符 地 址 mm (参见 第 九 章 ) 和 线 

性 地 址 adar 作 为 参数 。 这 个 宏 产 生地 址 addr 在 页 全 
局 目录 中 相应 表 项 的 线性 地 址 ， 通 过 内 存 描 述 符 mm 
内 的 一 个 指针 可 以 找到 这 个 页 全 局 目录 

产生 主 内 核 页 全 局 目录 中 的 某 个 项 的 线性 地 址 ， 该 项 
对 应 于 地 址 addr (参见 稍 后 “内 核 页 表 ” 一 节 ) 


通过 页 全 局 目录 项 pgd 产生 页 上 级 目录 所 在 页 框 的 
页 描述 符 地 址 。 在 两 级 或 三 级 分 页 系统 中 ， 该 宏 等 价 
于 puqd_page()， 后 者 应 用 于 页 上 级 目录 项 


接收 指 癌 页 全 局 目录 项 的 指针 pgd 和 线性 地 址 addr 
作为 和 参数。 这 个 宏 产 生 页 上 级 目录 中 目录 项 addr 对 
应 的 线性 地 址 。 在 两 级 或 三 级 分 页 系统 中 ， 该 宏 产 生 
pgd， 即 一 个 页 全 局 目录 项 的 地 址 


通过 页 上 级 目录 项 pud 产 生 相 应 的 页 中 间 目 录 的 线性 
地 址 。 在 两 级 分 页 系统 中 ， 该 宏 等 价 于 pmd_page ()， 
后 者 应 用 于 页 中 间 目 录 项 


产生 线性 地 址 addr 在 页 中 间 目 录 中 所 对 应 目录 项 的 
索引 《相对 位 置 ) 


接收 指向 页 上 级 目录 项 的 指针 pud 和 线性 地 址 ad9r 作 
为 参数 。 这 个 宏 产 生 目 录 项 addr 在 页 中 间 目 录 中 的 偏 
移 地 址 。 在 两 级 或 三 级 分 页 系统 中 ， 它 产生 pud， 即 
页 全 局 目录 项 的 地 址 


通过 页 中 间 目 录 项 pmd 产 生 相应 页 表 的 页 描述 符 地 址 。 
在 两 级 或 三 级 分 页 系统 中 ，pmad 实际 上 是 页 全 局 目录 
中 的 一 项 

接收 页 描述 符 地 址 p 和 一 组 存 取 权 限 prot 作为 参数 ， 
并 创建 相应 的 页 表 项 


产生 线性 地 址 addr 对 应 的 表 项 在 页 表 中 的 索引 ( 相 
对 位 置 ) 

线性 地 址 addr 在 页 中 间 目 录 dir 中 有 一 个 对 应 的 项 ， 
该 宏 就 产生 这 个 对 应 项 ， 即 页 表 的 线性 地 址 。 另 外 ， 
该 宏 只 在 主 内 核 页 表 上 使 用 (参见 稍 后 的 “内 核 页 表 ” 
一 市 ) 
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表 2-7: 对 页 表 项 操作 的 宏 ( 续 ) 


宏 名 称 说 明 


pte offset map (dir,addr) 接收 指向 一 个 页 中 间 目 录 项 的 指针 air 和 线性 地 址 
addr 作 为 参数 , 它 产生 与 线性 地 址 addr 相对 应 的 页 
表 项 的 线性 地 址 。 如 果 页 表 被 保存 在 高 端 内 存 中 ， 那 
么 内 核 建 立 一 个 临时 内 核 映射 (参见 第 八 章 “ 高 端 内 
存 页 框 的 内 核 映 射 ” 一 节 ) ， 并 用 pte_unmap 对 它 进 
行 释 放 。pte_offset_map_nested 宏 和 pte_unmap. 
nested 宏 是 相同 的 ， 但 它们 使 用 不 同 的 临时 内 核 映 


射 
pte_page (x) 返回 页 表 项 x 所 引用 页 的 描述 符 地 址 
pte_to_pgoff (pte) 从 一 个 页 表 项 的 pte 字段 内 容 中 提取 出 文件 偏 移 量 ， 


这 个 偏 移 基 对 应 着 一 个 非 线 性 文件 内 存 映射 所 在 的 页 
(参见 第 十 六 章 “ 非 线性 内 存 映射 ” 一 市 ) 


pgoff_to_pte(offset) 为 非 线 性 文件 内 存 映射 所 在 的 页 创建 对 应 页 表 项 的 内 


容 


这 里 罗列 最 后 一 组 纯 数 来 简化 页 表 项 的 创建 和 撤消 。 


当 使 用 两 级 页 表 时 , 创建 或 删除 一 个 页 中 间 目 录 项 是 不 重要 的 。 如 本 节 前 部 分 所 述 ， 页 
中 间 目 录 仅 含有 一 个 指向 下 属 页 表 的 目录 项 。 所 以 , 页 中 间 目 录 项 只 是 页 全 局 目录 中 的 
一 项 而 已 。 然 而 当 处 理 页 表 时 ,创建 一 个 页 表 项 可 能 很 复杂 ， 因 为 包含 页 表 项 的 那个 页 
表 可 能 就 不 存在 。 在 这 样 的 情况 下 ， 有 必要 分 配 一 个 新 页 框 ， 把 它 填 写 为 0， 并 把 这 个 
表 项 加 入 。 


如 果 PAE 被 油 活 ,内核 使 用 三 级 页 表 。 当 内 核 创建 一 个 新 的 页 全 局 目录 时 , 同时 也 分 配 
四 个 相应 的 页 中 间 目 录 ; 只 有 当 父 页 全 局 目录 被 释放 时 ,这 四 个 页 中 间 目 录 才 得 以 释放 。 


当 使 用 两 级 或 三 级 分 页 上 时， 页 上 级 目录 项 总 是 被 映射 为 页 全 局 目录 中 的 一 个 单独 项 。 
与 以 往 一 样 ， 表 2-8 中 列 出 的 图 数 描述 是 针对 80x86 体系 结构 的 。 


表 2-8: 页 分 配 函 数 
函数 名 称 说 明 
pgd_alloc (mm) 分 配 一 个 新 的 页 全 局 目录 。 如 果 PAE 被 激活 ， 它 


还 分 配 三 个 对 应 用 户 态 线性 地 址 的 子 页 中 间 目 录 。 
参数 mm (内 存 描述 符 的 地 址 ) 在 80x86 体系 结构 
上 被 忽略 
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表 2-8: 页 分 配 函 数 


函数 名 称 
pgd_free (pgd) 


Pud_alloc (mm, pgd, addr) 


pud_free (x) 
pmd_alloc (mm, pud, addr) 


pmd_free (x) 


pte_alloc_map (mm, pmd,addr) 


pte_alloc kernel (mm, pmd,addr) 


pte_free {pte) 
pte_free_ kernel (pte) 


clear_page_range (mmu, start, end) 
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说 明 

释放 页 全 局 目录 中 地 址 为 pgd 的 项 。 如 果 PAE 被 
激活 , 它 还 将 释放 用 户 态 线性 地 址 对 应 的 三 个 页 中 
间 目 录 

在 两 级 或 三 级 分 页 系统 下 ， 这 个 函数 什么 也 不 做 : 
它 仅 仅 返 回 页 全 局 目录 项 pgd 的 线性 地 址 

在 两 级 或 三 级 分 页 系统 下 ， 这 个 宏 什 么 也 不 做 
定义 这 个 函数 以 使 普通 三 级 分 页 系统 可 以 为 线性 地 
址 addr 分 配 一 个 新 的 页 中 间 上 自 录 。 如 果 PAE 未 被 
激 锋 ， 这 个 函数 只 是 返回 输入 参数 pud 的 值 ， 也 
就 是 说 ， 返 回 页 全 局 目录 中 目录 项 的 地 址 。 如 果 
PAE 被 激 锋 ， 该 函数 返回 线性 地 址 adadqr 对 应 的 页 
中 间 目 录 项 的 线性 地 址 。 参 数 mm 被 忽略 


该 函数 什么 也 不 做 ,因为 页 中 间 目 录 的 分 配 和 释放 
是 随同 它们 的 父 全 局 目录 一 同 进 行 的 

接收 页 中 则 目录 项 的 地 址 pmda 和 线性 地 址 aadr 作 
为 参数 ， 并 返回 与 addr 对 应 的 页 表 项 的 地 址 。 如 
果 页 中 间 目 录 项 为 空 ， 该 国 数 通 过 调用 乓 数 pte_ 
alloc_one() 分 配 一 个 新 页 表 。 如 果 分 配 了 一 个 新 
页 表 ，addr 对 应 的 项 就 被 创建 ， 同 时 User/ 
supervisor 标 志 被 设置 为 1。 如果 页 表 被 保存 在 
高 问 内 存 , 则 内 核 建 立 一 个 临时 内 核 映射 (参见 第 
八 章 “高 端 内 存 页 框 的 内 核 映 射 ”一 节 )， 并 用 
pte_unmap 对 它 进行 释放 

如 果 与 地 址 addr 相关 的 页 中 间 目 录 项 pma 为 空 ， 
该 明 数 分 配 一 个 新 页 表 。 然 后 返回 与 addr 相关 的 
页 表 项 的 线性 地 址 。 该 国 数 仅 被 主 内 核 页 表 使 用 
(参见 稍 后 “内 核 页 表 ” 一 节 ) 


释放 与 页 描述 符 指针 pte 相关 的 页 表 
等 价 于 pte_free(), 但 由 主 内 核 页 表 使 用 


从 线性 地 址 start 到 end 通过 反复 释放 页 表 和 请 
除 页 中 间 目 录 项 来 清除 进程 页 表 的 内 容 


指定 哪些 物理 地 址 范围 对 内 核 可 用 而 
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哪些 不 可 用 (或 者 因为 它们 映射 硬件 设备 I/O 的 共享 内 存 ， 或 者 因为 相应 的 页 框 含有 
BIOS 数据 )。 


内 核 将 下 列 页 框 记 为 保留 : 

。 ”在 不 可 用 的 物理 地 址 范围 内 的 页 框 。 

。 ”含有 内 核 代 码 和 已 初始 化 的 数据 结构 的 页 框 。 
保留 页 框 中 的 页 绝 不 能 被 动态 分 配 或 交换 到 磁盘 上 。 


一 般 来 说 , Linux 内 核 安装 在 RAM 中 从 物理 地 址 0x00100000 开 始 的 地 方 , 也 就 是 说 ， 
从 第 二 个 MB 开始 。 所 需 页 框 总 数 依 赖 于 内 核 的 配置 方案 : 典型 的 配置 所 得 到 的 内 核 可 
以 被 安装 在 小 于 3MB 的 RAM 中 。 


为 什么 内 核 没 有 安装 在 RAM 第 一 个 MB 开始 的 地 方 ” 因 为 PC 体系 结构 有 几 个 独特 的 地 
方 必须 考 虚 到 。 例 如 : 


。 ”页 框 0 由 BIOS 使用， 存放 加 电 自 检 (Power-On Self-Test，POST) 期 间 检查 到 的 
系统 硬件 配置 。 因 此 , 很 多 膝 上 型 电脑 的 BIOS 甚至 在 系统 初始 化 后 还 将 数据 写 到 
该 页 框 。 


。 ”物理 地 址 从 0x000a0000 到 0x000fffff 的 范围 通常 留 给 BIOS 例 程 ， 并 且 映 
射 ISA 图 形 卡 上 的 内 部 内 存 。 这 个 区 域 就 是 所 有 IBM 兼容 PC 上 从 640KB 到 1MB 
之 间 著 名 的 洞 : 物理 地 址 存在 但 被 保留 ， 对 应 的 页 框 不 能 由 操作 系统 使 用 。 

。 ”第 一 个 MB 内 的 其 他 页 框 可 能 由 特定 计算 机 模型 保留 。 例 如 ，IBM Thinkpnd 把 
0xa0 页 框 映 射 到 0x9f 页 框 。 


在 启动 过 程 的 早期 阶段 (参看 附录 一 ), 内 核 询问 BIOS 并 了 解 物理 内 存 的 大 小 。 在 新 近 . 
的 计算 机 中 ， 内 核 也 调用 BIOS 过 程 建立 一 组 物理 地 址 范围 和 其 对 应 的 内 存 类 型 。 


随后 ， 内 核 执 行 machine_specific_memory_setup() 函数 ,该 函数 建立 物理 地 址 映射 
( 见 表 2-9 中 的 例子 )。 当 然 ， 如 果 这 张 表 是 可 获取 的 ， 那 是 内 核 在 BIOS 列表 的 基础 上 
构建 的 ， 否 则 ， 内 核 按 保守 的 缺 省 设置 构建 这 张 表 : 从 0x9f (LOWMEMSIZE()) 到 
0x100 (HIGH_MEMORY) 号 的 所 有 页 框 都 标记 为 保留 。 


表 2-9: BIOS 提供 的 物理 地 址 映射 举例 


开始 结束 类 型 
Ox00000000 Ox0O009ffff Usable 
Ox000f0000 OxO0O00fffff Reserved 
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表 2-9: BIOS 提供 的 物理 地 址 映射 举例 〈( 续 ) 


开始 结 来 类 型 
Ox00100000 Ox07feffff Usable 
Ox07ff0000 OxO07ff2fff ACPI data 
Ox07ff3000 OxO7ffffff ACPI NVS 
Oxffff0000 Oxffffffff Reserved 





表 2-9 显示 了 具有 128MB RAM 计算 机 的 典型 配置 。 从 0x07ff0000 到 0x07ff2fff 
的 物理 地 址 范围 中 存 有 加 电 自 检 (POST) 阶段 由 BIOS 写 入 的 系统 硬件 设备 信息 在 初 
始 化 阶段 , 内 核 把 这 些 信息 拷贝 到 一 个 合适 的 内 核 数据 结构 中 , 然后 认为 这 些 页 框 是 可 
用 的 。 相 反 ， 从 0x07ff3000 到 0x07fftffftf 的 物理 地 址 范围 被 映射 到 硬件 设备 的 
ROM 芯片 。 从 0xffff0000 开始 的 物理 地 址 范围 标记 为 保留 ， 因 为 它 由 硬件 映射 到 BIOS 
的 ROM 芯片 (参见 附录 一 )。 注 意 BIOS 也 许 并 不 提供 一 些 物 理 地 址 范围 的 信息 (在 上 
述 表 中 ,范围 是 0x000a0000 到 0x000effff)。 为 安全 可 昔 起 内 ，Linux 假定 这 样 的 
范围 是 不 可 用 的 。 


内 核 可 能 不 会 见 到 BIOS 报告 的 所 有 物理 内 存 : 例如 ， 如 果 未 使 用 PAE 支持 来 编译 ， 即 
使 有 更 大 的 物理 内 存 可 供 使 用 , 内 核 也 只 能 寻 址 4GB 大 小 的 RAM。setup_memory () 隧 
数 在 machine_specific_memory_setup() 执 行 后 被 调用 : 它 分 析 物 理 内 存 区 域 表 并 初 
始 化 一 些 变量 来 描述 内 核 的 物理 内 存 布 局 ， 这 些 变量 如 表 2-10 所 示 。 


表 2-10: 描述 内 核 物 理 内 存 布局 的 变量 


变量 名 称 说 明 

num_physpages | 最 高 可 用 页 框 的 页 框 号 

totalram pages 可 用 页 框 的 总 数量 

min_low_pfn RAM 中 在 内 核 映 像 后 第 一 个 可 用 页 框 的 页 框 号 
max_pfn 最 后 一 个 可 用 页 框 的 页 框 号 

max_low_pfn 被 内 核 直 接 映 射 的 最 后 一 个 页 框 的 页 框 号 (低地 址 内 存 ) 
totalhigh pages 内 核 非 直接 映射 的 页 框 的 总 数 (高 地 址 内 存 ) 
highstart_pfn 内 核 非 直接 映射 的 第 一 个 页 框 的 页 框 号 
highend_pfn 内 核 非 直 接 映 射 的 最 后 一 个 页 框 的 页 框 号 


为 了 避免 把 内 核 装 和 一 握 个 连续 的 页 框 里 ， Linux 更 原 跑 过 RAM 且 第 一 个 MB。 明确 地 
说 ，Linux 用 PC 体系 结构 未 保留 ， 
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图 2-13 显示 Linux 怎样 填充 前 3MB 的 RAM。 我 们 假设 内 核 需 要 小 于 3MB 的 RAM， 





国生 不 可 用 的 页 杠 
[ |] 可 用 的 页 杠 
四 内 核 代码 
国 上 | 已 初始 化 的 内 核 数 据 
轩 | 未 初始 化 的 内 核 数据 














图 2-13: Linux 2.6 的 前 768 个 页 框 (3MB ) 


符号 _Eext 对 应 于 物理 地 址 0x00100000, 表示 内 核 代 码 第 一 节 的 地 址 。 内 核 代 
A 
据 的 和 没有 初始 化 的 数据 。 初 始 化 过 的 数据 在 _etext 后 开始 , 在 _edata 处 结束 。 紧 
接着 是 未 初始 化 的 数据 并 以 _end 结束 。 


图 中 出 现 的 符号 并 没有 在 Linux 产 代码 中 定义 ， 它 们 是 编译 内 核 时 产生 的 ( 注 6)，。 


进程 页 表 
进程 的 线性 地 址 空间 分 成 两 部 分 : 
” ”从 0x00000000 到 0xbfffffff 的 线性 地 址 , 无论 进程 运行 在 用 户 态 还 是 内 核 态 _ 
都 可 以 寻 + 
” 从 0xc0000000 到 0xffffffff 的 线性 地 址 ， 只 有 内 核 态 的 进程 才能 寻 址 。 





当 进 程 运 行 在 用 户 态 时 ， 化 产生 的 线性 地 址 小 于 0xc0000000; 当 进 程 运行 在 内 核 态 
行内 核 代码 ， 所 产生 的 地 址 大 于 等 于 0xc000 )0000。 但 是 , 在 某 些 情况 下 ,内 
核 为 了 检索 或 存放 数据 必须 访问 用 户 态 线性 地 址 空间 。 








注 6: 你 可 以 在 System.map 文件 中 找到 这 些 符 号 的 线性 地 址 ，System.map 是 编译 内 核 以 后 所 
创建 的 。 
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宏 PAGE_OFFSET 产 生 的 值 是 0xc0000000, 这 就 是 进程 在 线性 地 址 空间 中 的 偏 移 量 ， 
也 是 内 核 生 存 空间 的 开始 之 处 。 在 本 书 中 ， 我们 常常 直接 引用 0xc0000000 这 个 数 。 


页 全 局 目录 的 第 一 部 分 表 项 映射 的 线性 地 址 小 于 0xc0000000( 在 PAE 未 启用 时 是 前 768 
项 ，PAE 启用 时 是 前 3 项 )， 具体 大 小 依赖 于 特定 进程 。 相 反 ， 剩 余 的 表 项 对 所 有 进程 
来 说 都 应 该 是 相同 的 ， 它 们 等 于 主 内 核 页 全 局 目录 的 相应 表 项 (参见 下 一 市 )。 


内 核 页 表 


内 核 维持 着 一 组 自己 使 用 的 页 表 , 驻 留 在 所 谓 的 主 内 核 页 全 局 目录 (master kernel Page 
Global Directory) 中 。 系 统 初始 化 后 ， 这 组 页 表 还 从 未 被 任何 进程 或 任何 内 核 线程 直 
接 使 用 ; 更 确切 地 说 ， 主 内 核 页 全 局 目录 的 最 高 目录 项 部 分 作为 参考 模型 ， 为 系统 中 每 
个 普通 进程 对 应 的 页 全 局 目录 项 提供 参考 模型 。 


我 们 在 第 八 章 “ 非 连续 内 存 区 的 线性 地 址 “一 节 将 会 解释 ,内核 如 何 确保 对 主 内 核 页 全 
局 目录 的 修改 能 传递 到 由 进程 实际 使 用 的 页 全 局 目录 中 。 


我 们 现在 描述 内 核 如 何 初始 化 自己 的 页 表 。 这 个 过 程 分 为 两 个 阶段 。 事 实 上 ,内 核 映 像 
刚刚 被 装 入 内 存 后 ，CPU 仍然 运行 于 实 模式 ， 所 以 分 页 功能 没有 被 启用 。 


第 一 个 阶段 ,内核 创 建 一 个 有 限 的 地 址 空间 ,包括 内 核 的 代码 段 和 数据 段 、 初 始 页 表 和 
用 于 存放 动态 数据 结构 的 共 128KB 大 小 的 空间 。 这 个 最 小 限度 的 地 址 空间 仅 够 将 内 核 装 
入 RAM 和 对 其 初始 化 的 核心 数据 结构 。 


第 二 个 阶段 ， 内 核 充分 利用 剩余 的 RAM 并 适当 地 建立 分 页 表 。 下 一 布 解释 这 个 方案 是 
怎样 实施 的 。 


临时 内 核 页 表 


临时 页 全 局 目录 是 在 内 核 编译 过 程 中 静态 地 初始 化 的 ， 而 临时 页 表 是 由 startup_32 () 
汇编 语言 冰 数 (定义 于 arch/i386/kernel/head.S) 初始 化 的 。 我 们 不 再 过 多 提 及 页 上 级 目 
录 和 页 中 间 目 录 ， 因 为 它们 相当 于 页 全 局 目录 项 。 在 这 个 阶段 PAE 支持 并 未 激活 。 


临时 页 全 局 目录 帮 在 swapper_pg_dir 变 量 中 。 临时 页 表 在 pg0 变量 处 开始 存放 ， 紧 
接 在 内 核 未 初始 化 的 数据 段 (图 2-13 中 的 _ena 符号) 后 面 。 为 简单 起 见 , 我 们 假设 内 
核 使 用 的 段 、 临 时 页 表 和 128KB 的 内 存 范围 能 容纳 于 RAM 前 8MB 空间 里 。 为 了 映射 
RAM 前 8MB 的 空间 ， 需 要 用 到 两 个 页 表 。 


分 页 第 一 个 阶段 的 目标 是 允许 在 实 模式 下 和 保护 模式 下 都 能 很 容易 地 对 这 8SMB 寻 址 。 因 
此 ,内 核 必须 创建 一 个 映射 ,把 从 0x00000000 到 0x007fffff 的 线性 地 址 和 从 0xc0000000 
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到 0xc07fffff 的 线性 地 址 映射 到 从 0x00000000 到 0x007ffftf 的 物理 地 址 。 换 名 话说 ， 
内 核 在 初始 化 的 第 一 阶段 ， 可 以 通过 与 物理 地 址 相同 的 线性 地 址 或 者 通过 从 0xc0000000 
开始 的 8MB 线性 地 址 对 RAM 的 前 8MB 进行 寻 址 。 


内 核 通 过 把 swapper_pg_dir 所 有 项 都 填充 为 0 来 创建 期 望 的 映射 ,不 过 ,0、1、0x300 
(十 进 制 768) 和 0x301 (十 进 制 769) 这 四 项 除外 ， 后 两 项 包含 了 从 0xc0000000 到 
0xc07fffff 间 的 所 有 线性 地 址 。0、1、0x300 和 0x301 按 以 下 方式 初始 化 : 


。 “0 项 和 0x300 项 的 地 址 字段 置 为 pg0 的 物理 地 址 ,而 1 项 和 0x301 项 的 地 址 字段 
置 为 紧 随 pg0 后 的 页 框 的 物理 地 址 。 
e 把 这 四 个 项 中 的 Present、Read/Write 和 User/Supervisor 标志 置 位 。 
. 把 这 四 个 项 中 的 Accessed 、Dirty、PCD、PWD 和 Page Size 标 志清 0。 
汇编 语言 国 数 startuP_32 () 也 局 用 分 页 单元 ,通过 癌 cr3 控 制 寄存 器 装 和 人 swapper_pg_dir 
的 地 址 及 设置 cr0 控制 寄存 器 的 PG 标志 来 达到 这 一 目的 。 下 面 是 等 价 的 代码 片段 : 
mov1 S$Sswapper pg_dir-0xc0000000, $eax 


mov1 geaXx, gcr3 /* 设置 页 表 指 针 …… */ 


mov1| $®cr0, Seax 
orl S$SOx80000000,%eax 
mov] $eax,%cr0 /二 设置 分 页 (PG) 位 */ 


当 RAM 小 于 896MB 时 的 最 终 内 核 页 表 
由 内 核 页 表 所 提供 的 最 终 映 射 必须 把 从 0xc0000000 开 始 的 线性 地 址 转化 为 从 0 开始 的 
物理 地 址 。 


宏 __pa 用 于 把 从 PAGE_OFFSET 开 始 的 线性 地 址 转换 成 相应 的 物理 地 址 , 而 宏 __va 做 
相反 的 转化 。 


主 内 核 页 全 局 目录 仍然 保存 企 swapper_pg_dir 变 量 中 。 它 由 paging_init () 国 数 
初始 化 。 该 函数 进行 如 下 操作 : 

1. 调用 pagetable_init () 适 当地 建立 页 表 项 。 

2， 把 swapper_pg_dir 的 物理 地 址 写 入 cr3 控制 寄存 器 中 。 


3.， ”如 果 CPU 支持 PAE 并 且 如 果 内 核 编译 时 支持 PAE， 则 将 cr4 控制 寄存 器 的 PAE 
标志 置 位 。 
4. 调用 __flush tlb all() 使 TLB 的 所 有 项 无 效 。 


pagetable_init () 执 行 的 操作 既 依 赖 于 现 有 RAM 的 容量 ， 也 依赖 于 CPU 模型 。 让 
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我 们 从 最 简单 的 情况 开始 。 我 们 的 计算 机 有 小 于 896MB ( 注 7) 的 RAM，32 位 物理 地 
址 足以 对 所 有 可 用 RAM 进行 寻 址 ， 因 而 没有 必要 激活 PAE 机 制 [参见 前 面 “物理 地 址 
扩展 (PAE) 分 页 机 制 ” 一 布 ]。 


swapper._pg_dir 页 全 局 上 且 录 由 如 下 等 价 的 循环 重新 初始 化 : 


Pg9d = swapper_pg_dir + pgd _ index (PAGE OFFSET}); /* 768 */ 
phys_addr = 0x00000000; 
while (phys_addr < (max_ low pfn * PAGE SIZE)) { 
pmd = one_mqd_table_init (pgd); /* 返回 pgqd*/ 
set_ pmd{pmd, _ _pmd(phys_adqdr | pgprot_val{_ _pgprot (Oxle3))}),， 
/* Oxle3 == Present, Accessed, Dirty, Read/Write, 
Page Size, Global */ 
phys_addr += PTRS_PER_ PTE * PAGE SIZE; /* Ox400000 */ 
++Pgd; 
} 


我 们 假定 CPU 是 支持 4MB 页 和 “全 局 (global)”TLB 表 项 的 最 新 80x86 微 处 理 器 。 注 
意 如 果 页 全 局 目录 项 对 应 的 是 0xc0000000 之 上 的 线性 地 址 ， 则 把 所 有 这 些 项 的 User/ 
Supervisor 标 志清 0， 由 此 拒绝 用 户 态 进程 访问 内 核 地 址 空间 。 还 要 注意 Page Size 
被 置 位 使 得 内 核 可 以 通过 使 用 大 型 页 来 对 RAM 进行 寻 址 (参见 本 章 先前 的 “扩展 分 页 ” 
一 节 )。 


由 startup_32() 冰 数 创建 的 物理 内 存 前 8MB 的 恒 等 映射 用 来 完成 内 核 的 初始 化 阶段 。 
当 这 种 映射 不 再 必要 上 时， 内核 调用 zap_low_mappings () 国 数 请 除 对 应 的 页 表 项 。 


实际 上 , 这 种 描述 并 未 说 明 全 部 事实 。 我 们 将 在 后 面 “ 固 定 映射 的 线性 地 址 ”一 市 看 到 ， 
内 核 也 调整 与 “固定 映射 的 线性 地 址 ”对 应 的 页 表 项 。 


当 RAM 大 小 在 896MB 和 4096MB 之 间 时 的 最 终 内 核 页 表 

在 这 种 情况 下 , 并 不 把 RAM 全 部 映射 到 内 核 地 址 空间 。Linux 在 初始 化 阶段 可 以 做 的 最 
好 的 事 是 把 一 个 具有 896MB 的 RAM 窗口 (window) 映射 到 内 核 线性 地 址 空间 。 如 果 
一 个 程序 需要 对 现 有 RAM 的 其 余部 分 寻 址 ， 那 就 必须 把 某 些 其 他 的 线性 地 址 间隔 映射 
到 所 需 的 RAM ,这 意味 着 修改 某 些 页 表 项 的 值 。 我们 将 在 第 八 章 讨论 这 种 动态 重 映射 是 
如 何 进 行 的 。 


内 核 使 用 与 前 一 种 情况 相同 的 代码 来 初始 化 页 全 局 目录 。 
注 7: 线性 地 址 的 最 高 128MB 留 给 几 种 映射 去 用 (参见 本 章 后 面 “ 国 定 映射 的 线性 地 址 ”一 节 


和 第 八 齐 “ 非 连续 内 存 区 的 线性 地 址 ”一 节 ) 。 因 此 映射 RAM 所 币 空 间 为 1GB 一 128MB 
= 896MB . 


内 存 寻 址 77 


当 RAM 大 于 4096MB 时 的 最 终 内 核 页 表 


现在 让 我 们 考虑 RAM 大 于 4GB 计算 机 的 内 核 页 表 初 始 化 ， 更 确切 地 说 ,我们 处 理 以 下 
发 生 的 情况 : 


。 “CPU 模型 支持 物理 地 址 扩展 (PAE) 
。 RAM 容量 大 于 4GB 
。 ”内 核 以 PAE 支持 来 编译 


尽管 PAE 处 理 36 位 物理 地 址 ， 但 是 线性 地 址 依然 是 32 位 地 址 。 如 前 所 述 ，Linux 映射 
一 个 896 MB 的 RAM 窗口 到 内 核 线 性 地 址 空间 ， 剩余 RAM 留 着 不 映射 ， 并 由 动态 重 映 
射 来 处 理 , 第 八 章 将 对 此 进行 描述 。 与 前 一 种 情况 的 主要 差异 是 使 用 三 级 分 页 模型 ， 因 
此 页 全 局 目录 按 以 下 循环 代码 来 初始 化 : 


pgd_idx = pgd_index (PAGE_OFFSET),; /* 3 *)/ 

for (i=0; i<pgd_idx; i++) 
set_pgd(swapper_pg_dir + i, . _pgd(l_ _pal(lempty_zero_ page) + 0x0011) 1) ; 
A/* Ox001 == Present */ 

pgd = swapper_pg_dir + pgd_idx; 

phys_addr = 0x00000000; 


for (; i<PTRS_PER_PGD; ++i, ++pgd) { 
pmd = (pmd_t *) alloc bootmem low_pages (PAGE_SIZE); 
set_pgd(pgd, _ _pgd(_ _pa(lpmd) | 0x001)}); /* Ox001 == Present */ 


if {phys_addr < max_low pfn * PAGE_SIZE) 
for (j=0; j < PTRS_PER_ PMD /* S12 */ 
& phys_addr < max_low_pfn*PAGE SIZE; ++]) { 


set pmd{pmd, _ _pmd (phys._addr | 
PGProt_val( _pgprot (0xle3)))),; 
/* Oxle3 == Present, Accessed, Dirty, Read/Write, 


Page Size, Global */ 
phys_addr += PTRS_PER_ PTE * PAGE_SIZE; /* 0x200000 */ 
} 

} 

swapper_pg_dir[0] = swapper_pg_dirlpgd idx]; 
页 全 局 目录 中 的 前 三 项 与 用 户 线性 地 址 空间 相对 应 ,内 核 用 一 个 空 页 (empty_zero_page) 
的 地 址 对 这 三 项 进行 初始 化 。 第 四 项 用 页 中 间 目 录 (pmd) 的 地 址 初始 化 , 该 页 中 则 目录 是 
通过 调用 alloc_bootmem_low_pages() 分 配 的 。 页 中 则 目录 中 的 前 448 项 (有 512 项 , 但 
后 64 项 留 给 非 连续 内 存 分 配 ; 参见 第 八 章 的 “ 非 连续 内 存 区 管理 ”一 节 ) 用 RAM 前 896MB 
的 物理 地 址 填充 。 


注意 ， 支 持 PAE 的 所 有 CPU 模型 也 支持 大 型 2MB 页 和 全 局 页 。 正 如 前 一 种 情况 一 样 ， 
只 要 可 能 ，Linux 使 用 大 型 页 来 减少 页 表 数 。 


然后 页 全 局 目录 的 第 四 项 被 拷贝 到 第 一 项 中 ， 这 样 好 为 线性 地 址 空间 的 前 896MB 中 的 
低 物理 内 存 映 射 作 镜像 。 为 了 完成 对 SMP 系统 的 初始 化 , 这 个 映射 是 必需 的 : 当 这 个 映 
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射 不 再 必要 时 ， 内 核 通过 调用 zap_low_mappings () 国 数 来 清除 对 应 的 页 表 项 ， 正 如 先 
前 的 情况 一 样 。 


A 


的 物理 内 存 。 但 是 , 至 少 128MB 
现 非 连 续 内 存 分 配 和 固定 映射 











的 线性 地 


非 连续 内 存 分 配 仅仅 是 动态 分 配 和 释放 内 存 页 的 一 种 特殊 方式 , 将 在 第 八 章 “ 非 连续 内 
存 区 的 线性 地 址 ”一 节 描 述 。 本 节 我 们 集中 讨论 固定 映射 的 线性 地 址 。 


定 映射 的 线性 地 (fix-mapped linear address) 基本 上 是 一 种 类 似 于 0xffffc000 
这 样 的 常量 线性 ， 其 对 应 的 物理 地 址 不 必 等 于 线性 地 址 减 去 0xc000000， 而 是 可 
以 以 任意 方式 建立 。 因 此 ， a nr es 我 们 
将 会 在 后 面 的 章 市 看 到 ,内 核 使 用 国 % 到 
变量 的 值 从 不 改变 。 
固定 映射 的 线性 地 址 概念 上 类 似 于 对 RAM 前 896MB 映射 的 线性 地 址 。 不 过 ， ee 
的 线性 地 址 可 以 映射 任何 物理 地 址 , 而 由 第 4GB 初 始 部 分 能 ; 

性 的 (线性 地 址 XX 映射 物理 地 址 X-PAGE_OFFSET)。 
就 指针 变量 而 言 ,固定 上 映射 的 线性 地 址 更 有 效 。 事实 上 , 间接 引用 一 个 指针 变量 比 间 接 


引用 一 个 立即 常量 地 址 要 多 一 次 内 存 访问 。 此 外 , 在 间接 引用 一 个 指针 变量 之 前 对 其 值 
进行 检查 是 一 个 良好 的 编程 习惯 ， 相 反 ， 对 一 个 常量 线性 地 址 的 检查 则 是 没有 必要 的 。 


每 个 固定 映射 的 线性 地 址 都 由 定义 于 enum fixed_addresses 数 据 结 构 中 的 整 型 索引 来 
表示 : 








enum fixed addresses { 
FIX HOLE, 
FIX VSYSCALL, 
FIX_APIC BASE, 
FIX_IO_APIC_BASE 0, 
[| 
__end of fixed addresses 


二 
ER 
ye 十 索引 直到 的 党 量 线性 地 直 ， 


inline unsigned long fix_ to virt{const unsigned int idx) 


( 


及 存 寻 直 = 


if (idx >= _ _end of fixed addresses) 
__this_fixmap_ does_ not_exist(); 
return (Oxfffff0O00UL - (idx << PAGE_SHIFT)); 
} 


让 我 们 假定 某 个 内 核 函数 调用 fix_to_virt (FIX_IO_APIC_BASE_0) ,因为 该 函数 声明 为 
“inline”, 所 以 C 编 译 程序 不 调用 fix_to_virt(), 而 是 仅仅 把 它 的 代码 插入 到 调用 函数 
中 。 此外, 运行 时 从 不 对 这 个 索引 值 执行 检 查 。 事实 上 ,FIX_IO_APIC_BASE_0 是 个 等 于 
3 的 常量 ， 因 此 编译 程序 可 以 去 掉 让 语句 ， 因 为 它 的 条 件 在 编译 时 为 假 。 相反， 如 果 条 件 
为 真 , 或 者 fix_to_virt () 的 参数 不 是 一 个 常量 , 则 编译 程序 在 连接 阶段 产生 一 个 错误 ， 
因为 符号 _ _this_fixmap_does_not_exist 在 别处 没有 定义 。 最 后 ， 编 译 程序 计算 
Oxfffff000-(3<<PAGE_SHIFT), 并 用 常量 线性 地 址 0xffffc000 代 赫 fix_to_virt 7) 
畏 数 调用 。 


为 了 把 一 个 物理 地 址 与 国定 映射 的 线性 地 址 关联 起 来 ,内核 使 用 set_fixmap (idqx,Phys) 
和 set_fixmap_nocache(idx,phys) 宏 。 这 两 个 水 数 都 把 fix_to_virt (idqx) 线 性 地 
址 对 应 的 一 个 页 表 项 初始 化 为 物理 地 址 phys， 不 过 ， 第 二 个 国 数 也 把 页 表 项 的 PCD 标 
志 置 位 ， 因 此 ， 当 访问 这 个 页 框 中 的 数据 时 禁用 硬件 高 速 缓 存 (参见 本 章 前 面 “ 硬 件 高 
速 缓存 ”一 节 )。 反 过 来 ，clear_fixmap (idx) 用 来 撤消 固定 映射 线性 地 址 idx 和 物 
理 地 址 之 间 的 连接 。 


处 理 硬件 高 速 缓存 和 TLB 


内 存 寻 址 的 最 后 一 个 主题 是 关于 内 核 如 何 使 用 硬件 高 速 缓存 来 达到 最 佳 效果 。 硬 件 高 速 
缓存 和 转换 后 援 缓冲 器 (TLB) 在 提高 现代 计算 机 体系 结构 的 性 能 上 扮演 着 重要 角色 。 
内 核 开 发 者 采用 一 些 技术 来 减少 高 速 缓 在 和 TLB 的 未 命中 次 数 。 


处 理 硬 件 高 速 缓存 

如 前 所 述 ， 硬 件 高 速 缓存 是 通过 高 速 缓存 行 (cache line) 寻 址 的 。L1_CACHE_BYTES 
宕 产生 以 字 节 为 单位 的 高 速 缓 存 行 的 大 小 。 在 早 于 Pentium 4 的 Intel 模 型 中 ,这 个 宏 产 
生 的 值 为 32， 在 Pentium 4 上 ， 它 产生 的 值 为 128。 


为 了 使 高 速 缓 存 的 命中 率 达 到 最 优化 ， 内 核 在 下 列 决 策 中 考虑 体系 结构 : 


。 ”一 个 数据 结构 中 最 常 使 用 的 字段 放 在 该 数据 结构 内 的 低 偏 移 部 分 ,以便 它 们 能 够 处 
于 高 速 缓存 的 同一 行 中 。 

。 ” 当 为 一 大 组 数据 结构 分 配 空间 时 , 内 核 试 图 把 它们 都 存放 在 内 存 中 , 以 便 所 有 高 速 
缓存 行 按 同一 方式 使 用 。 
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80x86 微 处 理 器 自动 处 理 高 速 缓 存 的 同步 ， 所 以 应 用 于 这 种 处 理 器 的 Linux 内 核 并 不 处 
理 任何 硬件 高 速 缓存 的 刷新 ,不 过 内 核 却 为 不 能 同步 高 速 绥 存 的 处 理 器 提供 了 高 速 缓存 
刷新 接口 。 


处 理 TLB 
公理 各 不 能 日 站 区 放 全 目 己 的 TLB 珊 速 缓存 ， 因为 决定 线性 地 址 








Linux 2.6 提供 了 几 种 在 合适 时 机 应 当 运 用 的 TLB 刷新 方法 ， 这 取决 于 页 表 更 换 的 类 型 
( 见 表 2-11)。 


表 2-11: 独立 于 系统 的 使 TLB 表 项 无 效 的 方法 


方法 名 称 说 明 典型 的 应 用 时 机 
flush_tlb_all 刷新 所 有 TLB 表 项 (包括 改变 内 核 页 表 项 时 
那些 全 局 页 对 应 的 TLB 表 
项 ， 即 那些 Global 标志 被 
置 位 的 页 ) 
flush_tlb_kernel_range 刷新 给 定 线 性 地 址 范围 内 更 换 一 个 范围 内 的 内 核 
的 所 有 TLB 表 项 (包括 那 页 表 项 时 
些 全 局 页 对 应 的 TLB 表 项 ) 
flush_ tlb 刷新 当前 进程 拥有 的 非 全 执行 进程 切换 时 
局 页 相关 的 所 有 TLB 表 项 
flush_tlb_mm 刷新 指定 进程 拥有 的 非 全 创建 一 个 新 的 子 进程 时 
局 页 相关 的 所 有 TLB 表 项 释放 某 个 进程 的 线性 
flush_tlb_range 刷新 指定 进程 的 线性 地 址 地 址 间隔 时 
间隔 对 应 的 TLB 表 项 
flush_tlb_pgtables 刷新 指定 进程 中 特定 的 相 释放 进程 的 一 些 页 表 时 
临 页 表 集 相关 的 TLB 表 项 
flush_tlb_page 刷新 指定 进程 中 单个 页 表 处 理 缺 页 异常 时 
项 相关 的 TLB 表 项 








尽管 普通 Linux 内 核 提供 了 丰富 的 TLB 方 法 , 但 通常 每 个 微 处 理 器 都 提供 了 更 受 限 制 的 
一 组 使 TLB 无 效 的 汇编 语言 指令 。 在 这 个 方面 ， 一 个 更 为 灵活 的 硬件 平台 就 是 Sun 的 
UltraSPARC。 与 之 相 比 ，Intel 微 处 理 器 只 提供 了 两 种 使 TLB 无 效 的 技术 : 
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。 ”在 站 cr3 寄 存 器 写 入 值 时 所 有 Pentium 处 理 器 自动 刷新 相对 于 非 全 局 页 的 TLB 表 
项 。 


。 ”在 Pentium Pro 及 以 后 的 处 理 器 中 ，invLpg 汇 编 语 言 指令 使 映射 指定 线性 地 址 的 
单个 TLB 表 项 无 效 。 


表 2-12 列 出 了 采用 这 种 硬件 技术 的 Linux 宏 ， 这 些 宏 是 实现 独立 于 系统 的 方法 〈 表 2- 
11) 的 基本 要 素 。 


表 2-12:; Intel Pentium Pro 及 以 后 的 处 理 器 上 使 用 的 使 TLB 无 效 的 宏 


宏 名 称 描述 使 用 对 象 
”flush tl1b() 将 cr3 寄存 器 的 当前 值 flush t 1b, 
重新 写 回 cr3 flush tlb_m, 
flush tlb range 
flush tlb_global() 通过 清除 cr4 的 PGE 标 flush tlb all, 
志 禁 用 全 局 页 ， 将 cr3 寄 flush tlb 
存 器 的 当前 值 重新 写 回 kernel_range 
cr3， 并 再 次 设置 PGE 标志 
”flush tlb single (addr) 以 addr 为 参数 执行 flush tlb_page 
invlpg 汇 编 语 言 指令 


注意 表 2-12 中 没有 flush_tlb pgtables 方 法 : 在 80x86 系 统 中 , 当 页 表 与 父 页 表 解 除 
链接 时 什么 也 不 需要 做 ， 所 以 实现 这 个 方法 的 函数 为 空 。 


独立 于 体系 结构 的 使 TLB 无 效 的 方法 非常 简单 地 扩展 到 了 多 处 理 器 系统 上 ,在 一 个 CPU 
上 运行 的 函数 发 送 一 个 处 理 器 间 中 断 (参见 第 四 章 的 “处 理 器 间 中 断 处 理 ”) 给 其 他 的 
CPU 来 强制 它们 执行 适当 的 函数 使 TLB 无 效 。 


一 般 来 说 ,任何 进程 切换 都 会 路 示 着 更 换 活 动 页 表 集 。 相 对 于 过 期 而 去. 本地 TLB 去 项 
必须 被 刷新 ,这 个 过 程 在 内 核 把 新 的 页 全 局 目录 的 地 址 写 入 cr3 
夸 。 不 过 丙 核 在 下 列 情 帝 下 将 避免 TLB 被 刷新 


。 ” 当 两 个 使 用 相同 页 表 集 的 普通 进程 之 间 执 行进 程 切换 时 (参见 第 七 章 的 “schedule() 
尔 数 ”一 市 )。 

。 ” 当 在 一 个 普通 进程 和 一 个 内 核 线程 旧 执 行进 程 切 换 时 ,事实 上 ,我 们 将 在 第 九 章 的 
“内 核 线程 的 内 存 描述 符 ” 一 市 看 到 ， 内核 线 程 并 不 拥有 自己 的 页 表 集 ; 更 确切 地 
说 ， 它 们 使 用 刚 在 CPU 上 执行 过 的 普通 进程 的 页 表 集 。 


pe 
I 
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除了 进程 切换 以 外 , 还 有 其 他 几 种 情况 下 内 核 需 要 刷新 TLB 中 的 一 些 表 项 。 例如 , 当 内 
核 为 某 个 用 户 态 进程 分 配 页 框 并 将 它 的 物理 地 址 存 入 页 表 项 时 , 它 必须 刷新 与 相应 线性 
地 址 对 应 的 任何 本 地 TLB 表 项 。 在 多 处 理 器 系统 中 ， 如 果 有 多 个 CPU 在 使 用 相同 的 页 
表 集 ， 那 么 内 核 还 必须 刷新 这 些 CPU 上 使 用 相同 页 表 集 的 TLB 表 项 。 


为 了 避免 多 处 理 器 系统 上 无 用 的 TLB 刷新 , 内 核 使 用 一 种 叫做 懒惰 TLB (lazy TLB) 模 
式 的 技术 。 其 基本 思想 是 ， 如 果 几 个 CPU 正在 使 用 相同 的 页 表 ， 而 且 必 须 对 这 些 CPU 
上 的 一 个 TLB 表 项 刷新 ， 那 么 ， 在 某 些 情况 下 ， 正 在 运行 内 核 线程 的 那些 CPU 上 的 刷 
新 就 可 以 延迟 。 


事实 上 ， 每 个 内 核 线程 并 不 拥有 自己 上 确切 地 说 ， 它 使 用 一 个 普通 进程 的 页 
表 集 。 不 过 , 没有 必要 使 一 re 内 
加 内 核 态 地 址 空间 ( 注 8)。 





H 





E 
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当 某 个 CPU 开始 运行 一 个 内 核 线程 时 ， 内 核 把 它 置 为 懒惰 TLB 模式 。 当 发 出 清除 TLB 
表 项 的 请 求 时 ， 处 于 懒惰 TLB 模式 的 每 个 CPU 都 不 刷新 相应 的 表 项 ,但 是 ，CPU 记 住 
它 的 当前 进程 正和 运行 在 一 组 页 表 上 , 而 这 组 页 表 的 TLB 表 项 对 用 户 态 地 址 是 无 效 的 。 只 
要 处 于 懒 情 TLB 模式 的 CPU 用 一 个 不 同 的 页 表 集 切换 到 一 个 普通 进程 ， 硬 件 就 目 动 刷 
新 TLB 表 项 , 同时 内 核 把 CPU 设置 为 非 懒 情 TLB 模式 。 然 而 ， 如 果 处 于 懒惰 TLB 模式 
的 CPU 切换 到 的 进程 与 刚才 运行 的 内 核 线程 拥有 相同 的 页 表 集 ， 那 么 ， 任 何 使 TILB 无 
效 的 延迟 操作 必须 由 内 核 有 效 地 实施 ， 这 种 使 TLB 无 效 的 “懒惰 ”操作 可 以 通过 刷新 
CPU 的 所 有 非 全 局 TLB 项 来 有 效 地 获取 。 


为 了 实现 懒惰 TLB 模式 ， 需 要 一 些 额 外 的 数据 结构 。cpu_tlbstate 变量 是 一 个 具有 
NR_CPUS 个 结构 的 静态 数组 (这 个 宏 的 默认 值 是 32， 它 代表 了 系统 中 CPU 的 最 大 数 
量 ), 这 个 结构 有 两 个 字段 , 一 个 是 指向 当前 进程 内 存 描述 符 的 active_mm 字 段 〈 参 见 
第 九 章 ), 一 个 是 具有 两 个 状态 值 的 state 字段 : TLBSTATE_OK〈 非 懒惰 TLB 模式 ) 
或 TLBSTATE_LAZY( 懒 情 TLB 模 式 )。 此 外 ,每 个 内 存 描述 符 中 包含 一 个 cpu_vm_rmask 
字段 ， 该 字段 存放 的 是 CPU (这 些 CPU 将 要 接收 与 TLB 刷新 相关 的 处 理 器 间 中 断 ) 下 
标 ， 只 有 当 内 存 描 述 符 属于 当前 运行 的 一 个 进程 时 这 个 字段 才 有 意义 。 


当 一 个 CPU 开始 执行 内 核 线程 时 ， 内 核 把 该 CPU 的 cpu_tlbstate 元 素 的 state 字 段 
置 为 TLBSTATE_LAZY， 此 外 , 活动 (active) 内 存 描 述 符 的 cpu_vm_mask 字 段 存放 系 
统 中 所 有 CPU (包括 进入 懒 情 TLB 模式 的 CPU) 的 下 标 。 对 于 与 给 定 页 表 集 相关 的 所 


注 8: 顺便 说 一 可 , flush _ tlb_al1 方 法 并 不 使 用 同情 TLB 模 式 机 制 ;通常 只 有 在 内 核 修 改 
与 内 核 态 地 址 空间 相关 的 一 个 页 表 项 时 才 调 用 这 个 方法 。 
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有 CPU 的 TLB 表 项 , 当 另 外 一 个 CPU 想 使 这 些 表 项 无 效 时 , 该 CPU 就 把 一 个 处 理 器 间 
中 断 发 送 给 下 标 处 于 对 应 内 存 描 述 符 的 cpu_vm_mask 字段 中 的 那些 CPU 。 

当 CPU 接受 到 一 个 与 TLB 刷新 相关 的 处 理 缘 间 中 断 ， 并 验证 它 影响 了 其 当前 进程 的 页 
表 集 时 ， 它 就 检查 它 的 cpu_tlbstate 元 素 的 state 字 段 是 否 等 于 TLBSTATE_LAZY， 
如 果 等 于 ， 内 核 就 拒绝 使 TLB 表 项 无 效 ， 并 从 内 存 描述 符 的 cpu_vm_mask 字段 删除 该 
CPU 下 标 。 这 有 两 种 结果 : 


。 ”只 要 CPU 还 处 于 懒 情 TLB 模 式 , 它 将 不 接受 其 他 与 TLB 刷 新 相关 的 处 理 器 间 中 断 。 


。 ”如 果 CPU 切换 到 另 一 个 进程 ， 而 这 个 进程 与 刚 被 替换 的 内 核 线 程 使 用 相同 的 页 表 
集 ， 那 么 内 核 调 用 __flush tlb() 使 该 CPU 的 所 有 非 全 局 TLB 表 项 无 效 。 





进程 是 任何 多 道 程序 设计 的 操作 系统 中 的 基本 概念 .通常 把 进程 定义 为 程序 执行 的 一 个 
实例 ， 因 此 ， 如 果 16 个 用 户 同 时 运行 内， 那么 就 有 16 个 独立 的 进程 (尽管 它们 共享 同 
一 个 可 执行 代码 )。 在 Linux 源 代 码 中 ， 常 把 进程 称 为 任务 (task) 或 线程 (thread)。 


在 这 一 章 ,， 我 们 将 首先 讨论 进程 的 静态 特性 ,然后 描述 内 核 如 何 进行 进程 切换 。 节 后 两 
节 研 究 如何 创 建 和 撤消 进程 。 这 一 章 还 将 讲述 Linux 对 多 线程 应 用 程序 的 支持 , 正如 第 
一 章 中 所 提 到 的 ， 它 依赖 所 谓 的 轻 量 级 进程 (LWP)。 


进程 、 轻 量 级 进程 和 线程 

术语 “进程 ”在 使 用 中 常 有 几 个 不 同 的 含义 。 在 本 书 中 ， 我 们 遵循 0S 教科 书 中 的 通常 
定义 : 进程 是 程序 执行 时 的 一 个 实例 。 你 可 以 把 它 看 作 充 分 描述 程序 已 经 执行 到 何 种 各 
度 的 数据 结构 的 汇集 。 


进程 类 似 于 人 类 : 它们 被 产生 ， 有 或 多 或 少 有 效 的 生命 ， 可 以 产生 一 个 或 多 个 子 进程 ， 
最 终 都 要 死亡 。 一 个 微小 的 差异 是 进程 之 则 没有 性 别 差异 一 一 每 个 进程 都 只 有 一 个 父 
亲 。 


从 内 核 观 点 看 ， 进 程 的 目的 就 是 担当 分 配 系统 资源 (CPU 时 间 、 内 存 等 ) 的 实体 。 


当 一 个 进程 创建 时 , 它 几 乎 与 父 进 程 相同 。 它 接受 父 进程 地 址 空间 的 一 个 (逻辑 ) 拷贝 ， 
并 从 进程 创建 系统 调用 的 下 一 条 指令 开始 执行 与 父 进程 相同 的 代码 ,尽管 父子 进程 可 以 
共享 含有 程序 代码 (正文 ) 的 页 ， 但 是 它们 各 自 有 独立 的 数据 拷贝 〈 栈 和 堆 ) ， 因 此 芋 
进程 对 一 个 内 存单 元 的 修改 对 父 进程 是 不 可 见 的 (反之 亦 然 )。 
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尽管 早期 Unix 内 核 使 用 了 这 种 简单 模式 , 但 是 ,现代 Unix 系统 并 没有 如 此 使 用 。 它 们 
支持 多 线程 应 用 程序 一 一 拥有 很 多 相对 独立 执行 流 的 用 户 程序 共享 应 用 程序 的 大 部 分 
数据 结构 。 在 这 样 的 系统 中 ， 一 个 进程 由 几 个 用 户 线程 (或 简单 地 说 ,线程 ) 组 成 ， 每 
个 线程 都 代表 进程 的 一 个 执行 流 。 现在 , 大 部 分 多 线程 应 用 程序 都 是 用 pthread (POSIX 
thread) 库 的 标准 库 函 数 集 编写 的 。 


Linux 内 核 的 早期 版 本 没有 提供 多 线程 应 用 的 支持 。 从 内 核 观 点 看 ， 多 线程 应 用 程序 仅 
仅 是 一 个 普通 进程 。 多 线程 应 用 程序 多 个 执行 流 的 创建 、 处 理 、 调度 整个 都 是 在 用 户 态 
进行 的 (通常 使 用 POSIX 兼容 的 pthread 库 )。 


但 是 , 这 种 多 线程 应 用 程序 的 实现 方式 不 那么 令 人 满意 。 例如, 假设 一 个 象棋 程序 使 用 
两 个 线程 : 其 中 一 个 控制 图 形 化 棋盘 , 等 待人 类 选手 的 移动 并 显示 计算 机 的 移动 ,而 另 
一 个 思考 棋 的 下 一 步 移动 ,尽管 第 一 个 线程 等 待 选 手 移动 时 ,第 二 个 线程 应 当 继 续 运 行 ， 
以 此 利用 选手 的 思考 时 间 。 但 是 , 如 果 和 象棋 程序 仅 是 一 个 单 狼 的 进程 ,第 一 个 线程 就 不 
能 简单 地 发 出 等 待 用 户 行为 的 阻塞 系统 调用 ， 否则， 第 二 个 线程 也 被 阻塞 。 相 反 , 第 一 
个 线程 必须 使 用 复杂 的 非 阻塞 技术 来 确保 进程 仍然 是 可 运行 的 。 


Linux 使 用 轻 量 级 进程 (lighiwetght process) 对 多 线程 应 用 程序 提供 更 好 的 支持 。 两 个 
轻 最 级 进程 基本 上 可 以 共享 一 些 资源 , 诸如 地 址 空间 、 打 开 的 文件 等 等 。 只 要 其 中 一 个 
修改 共享 资源 ， 另 一 个 就 立即 查看 这 种 修改 。 当 然 ， 当 两 个 线程 访问 共享 资源 时 就 必须 
同步 它们 自己 。 


实现 多 线程 应 用 程序 的 一 个 简单 方式 就 是 把 轻 量 级 进程 与 每 个 线程 关联 起 来 。 这 样 , 线 
程 之 间 就 可 以 通过 简单 地 共享 同一 内 存 地 址 空间 .同一 打开 文件 集 等 来 访问 相同 的 应 用 
程序 数据 结构 集 ， 同时 , 每 个 线程 都 可 以 由 内 核 独立 调度 ， 以 便 一 个 睡眠 的 同时 男 一 个 
仍然 是 可 运行 的 。POSIX 兼容 的 pthread 库 使 用 Linux 轻 量 级 进程 有 3 个 例子 ， 它 们 是 
LinuxThreads、Native Posix Thread Library(NPTL) 和 IBM 的 下 一 代 Posix 线 程 包 NGPT 


(Next Generation Posix Threadine Package ) 。 


POSIX 兼容 的 多 线程 应 用 程序 由 支持 “线程 组 ”的 内 核 来 处 理 最 好 不 过 。 在 Linux 中 ,一 
个 线程 组 基本 上 就 是 实现 了 多 线程 应 用 的 一 组 轻 基 级 进程 , 对 于 像 getpid()，kil1()， 
和 _exit () 这 样 的 一 些 系 统 调 用 , 它 像 一 个 组 织 ， 起 整体 的 作用 。 在 本 章 随 后 我 们 将 对 
其 进行 详细 描述 。 


进程 描述 符 
为 了 管理 进程 ,内 核 必 须 对 每 个 进程 所 做 的 事情 进行 清楚 的 描述 。 例 如 ,内 核 必 须知 道 
进程 的 优先 级 , 它 是 正在 CPU 上 运行 还 是 因 某 些 事件 而 被 阻塞 , 给 它 分 配 了 什么 样 的 地 
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址 空间 ， 人 允许 它 访问 哪个 文件 等 等 。 这 正 是 进程 描述 符 (process descriptor) 的 作用 
一 一 进程 摘 述 符 都 是 task_struct 类 型 结构 , 它 的 字段 包含 了 与 一 个 进程 相关 的 所 有 信 
息 ( 注 1)。 因 为 进程 描述 符 中 存放 了 那么 多 信息 ,所 以 它 是 相当 复杂 的 。 它 不 仅 包含 了 
很 多 进程 属性 的 字段 , 而 且 一 些 字 段 还 包括 了 指向 其 他 数据 结构 的 指针 , 依 此 类 推 。 图 
3-1 示意 性 地 描述 了 Linux 的 进程 描述 符 。 


task_struct 


state thread_info 


thread_info > 
usage | 进程 的 基本 信息 
flags 


run_list : -py 


Li 


指向 内 存 区 描述 符 的 指针 


tasks 


real_ parent 
parent 


thread : : ] -这 ”指向 文件 描述 符 的 指针 
7 : 


f 
files 


signal_struct 
-人 


signal : | 所 接收 的 信号 
i 


pending 





3-1; Linux 进程 描述 符 


图 右边 的 六 个 数据 结构 涉及 进程 所 拥有 的 特殊 资源 ,这 些 资 源 将 在 以 后 的 章节 中 涉及 到 。 
本 章 集 中 讨论 两 种 字段 : 进程 的 状态 和 进程 的 父 / 子 间 关系 。 


注 1: 内 核 还 定义 了 task 上 数据 类 型 来 等 同 于 struct task_struct。 
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进程 状态 

顾名思义 , 进程 描述 符 中 的 state 字 段 描述 了 进程 当前 所 处 的 状态 。 它 由 一 组 标志 组 成 ， 
其 中 每 个 标志 描述 一 种 可 能 的 进程 状态 。 在 当前 的 Linux 版 本 中 , 这 些 状态 是 互 斥 的 ， 
此 , 严格 意义 上 说 ， 只 能 设置 一 种 状态 ， 其余 的 标志 将 被 清除 。 下 面 是 进程 可 能 的 状态 : 


可 运行 状态 (TASK_RUNNING ) 
进程 要 么 在 CPU 上 执行 ， 要 么 准备 执行 。 


可 中 断 的 等 待 状态 (TASK_INTERRUPTIBLE) 
进程 被 挂 起 〈 睡 眠 ) ， 直 到 某 个 条 件 变 为 真 。 产 生 一 个 硬件 中 断 ， 释 放 进 程 正 等 待 
的 系统 资源 ， 或 传递 一 个 信号 都 是 可 以 唤醒 进程 的 条 件 (把 进程 的 状态 放 回 到 
TASK_RUNNING ) 。 


不 可 中 断 的 等 待 状态 (TASK_UNINTERRUPTIBLE) 
与 可 中 断 的 等 待 状态 类 似 , 但 有 一 个 例外 , 把 信和 号 传递 到 睡眠 进程 不 能 改变 它 的 状 
态 。 这 种 状态 很 少 用 到 , 但 在 一 些 特定 的 情况 下 (进程 必须 等 待 ,， 直到 一 个 不 能 被 
中 断 的 事件 发 生 )， 这 种 状态 是 很 有 用 的 。 例 如 ， 当 进程 打开 一 个 设备 文件 ， 其 相 
应 的 设备 驱动 程序 开始 探测 相应 的 硬件 设备 时 会 用 到 这 种 状态 ,探测 完成 以 前 , 设 
备 驱 动 程序 不 能 被 中 断 ， 和 否则 ， 硬 件 设备 会 处 于 不 可 预知 的 状态 。 

暂停 状态 (TASK_STOPPED ) 
进程 的 执行 被 暂停 。 当 进程 接收 到 SIGSTOP 、SIGTSTP、SIGTTIN 或 SIGTTOU 
信号 后 ， 进 入 暂停 状态 。 

跟踪 状态 (TASK_TRACED) 
进程 的 执行 已 由 debugger 程序 暂停 。 当 一 个 进程 被 另 一 个 进程 监控 时 (例如 
debugger 执 行 ptrace () 系 统 调用 监控 一 个 测试 程序 ), 任何 信号 都 可 以 把 这 个 进 
程 置 于 TASK_TRACED 状态 。 


还 有 两 个 进程 状态 是 既 可 以 存放 在 进程 描述 符 的 state 字 段 中 ,也 可 以 存放 在 exit_state 
字段 中 。 从 这 两 个 字段 的 名 称 可 以 看 出 , 只 有 当 进 程 的 执行 被 终止 时 , 进程 的 状态 才 会 变 
为 这 两 种 状态 中 的 一 种 : 

伪 死 状态 (EXIT_ZOMBIE) 


进程 的 执行 被 终止 ,但 是 ， 父 进程 还 没有 发 布 wait4() 或 waitpid() 系 统 调 用 
来 返回 有 关 死 亡 进 程 的 信息 ( 注 2)。 发 布 wait () 类 系统 调用 前 ， 内 核 不 能 丢弃 


注 2: 还 有 其 他 wait () 类 的 亩 函数 ,如 wait3() 和 waikc(), 但 在 Linux 中 它们 是 依靠 wait41) 
和 waitpid{) 系统 调用 来 实现 的 ， 
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包含 在 死 进 程 描述 符 中 的 数据 , 因为 父 进程 可 能 还 需要 它 (参见 本 章 结尾 的 “进程 
删除 ”一 节 )。 

优 死 撤消 状态 (EXIT_DEAD) 
最 终 状 态 : 由 于 父 进程 刚 发 出 wait4() 或 waitpid() 系 统 调 用 ,因而 进程 由 系统 
删除 。 为 了 防止 其 他 执行 线程 在 同一 个 进程 上 也 执行 wait () 类 系统 调用 (这 是 一 
种 竞争 条 件 )， 而 把 进程 的 状态 由 翁 死 (EXIT_ZOMBIE) 状态 改 为 便 死 撤消 状态 
(EXIT_DERAD)( 参 见 第 五 章 )。 


state 字段 的 值 通 常用 一 个 简单 的 赋值 语句 设置 。 例 如 : 


p->state = TASK_RUNNING 


内 核 也 使 用 set_task_state 和 set_current_state 宏 ,它们 分 别 设置 指定 进程 
的 状态 和 当前 执行 进程 的 状态 。 此外, 这些 宏 确保 编译 程序 或 CPU 控制 单元 不 把 赋值 操 
作 与 其 他 指令 混合 。 混 合 指令 的 顺序 有 时 会 导致 灾难 性 的 后 果 (参见 第 五 章 )。 


标识 一 个 进程 
一 般 来 说 , 能 被 独立 调度 的 每 个 执行 上 下 文 都 必须 拥有 它 自己 的 进程 描述 符 ; 因此 , 即 
使 共享 内 核 大 部 分 数据 结构 的 轻 量 级 进程 ， 也 有 它们 自己 的 task_struct 结构 。 


进程 和 进程 描述 符 之 间 有 非常 严格 的 一 一 对 应 关系 , 这 使 得 用 32 位 进程 描述 符 地 址 ( 注 
3) 标识 进程 成 为 一 种 方便 的 方式 。 进 程 描述 符 指 针 指 向 这 些 地 址 ， 内 核对 进程 的 大 部 
分 引用 是 通过 进程 描述 符 指 针 进 行 的 。 


男 一 方面 ,类 Unix 操 作 系 统 允 许 用 户 使 用 一 个 叫做 进程 标识 符 process 1D (或 PID) 的 
数 来 标识 进程 ，PID 存放 在 进程 描述 符 的 pid 字 段 中 。PID 被 顺序 编号 ， 新 创建 进程 的 
PID 通常 是 前 一 个 进程 的 PID 加 1。 不 过 ，PID 的 值 有 一 个 上 限 ， 当 内 核 使 用 的 PID 达 
到 这 个 上 限 值 的 时 候 就 必须 开始 循环 使 用 已 闲置 的 小 PID 号 .在 缺 省 情况 下 ,最 大 的 PID 
号 是 32767(PID_MAX_DEFAULT-1); 系 统管 理 员 可 以 通过 往 /proc/sys/kernel/pid_max 
这 个 文件 中 写 入 一 个 更 小 的 值 来 减 小 PID 的 上 限 值 ， 使 PID 的 上 限 小 于 32767。(proc 
是 一 个 特殊 文件 系统 的 安装 点 ， 参 看 第 十 二 章 “ 特 殊 文件 系统 ”一 节 。) 在 64 位 体系 结 
构 中 ， 系 统管 理 员 可 以 把 PID 的 上 限 扩 大 到 4194303。 


由 于 循环 使 用 PID 编号 ， 内 核 必须 通过 管理 一 个 Pidmap-array 位 图 来 表示 当前 已 分 配 


注 3: 正如 已 经 在 第 二 章 的 “Linux 中 的 分 段 ” 一 节 中 说 明 的 那样 ， 尽管 从 技术 上 说 , 这 32 位 
仅仅 是 一 个 运 辑 地 址 的 偏 移 量 部 分 ， 但 它们 与 线性 地 址 相 一 致 。 
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的 PID 号 和 闲置 的 PID 号 。 因 为 一 个 页 框 包含 32768 个 位 ， 所 以 在 32 位 体系 结构 中 
pigmap-array 位 图 存放 在 一 个 单独 的 页 中 。 然 而 , 在 64 位 体系 结构 中 ， 当 内 核 分 配 了 
超过 当前 位 图 大 小 的 PID 号 时 , 需要 为 PID 位 图 增加 更 多 的 页 。 系统 会 一 直 保 存 这 些 页 
不 被 释放 。 


Linux 把 不 同 的 PID 与 系统 中 每 个 进程 或 轻 量 级 进程 相关 联 (本 章 后 面 我 们 会 看 到 ， 在 
多 处 理 器 系统 上 稍 有 例外 )。 这 种 方式 能 提供 最 大 的 灵活 性 ， 因 为 系统 中 每 个 执行 上 下 
文 都 可 以 被 唯一 地 识别 。 


另 一 方面 ，Unix 程序 员 和 希望 同一 组 中 的 线程 有 共同 的 PID。 例如 ,把 指定 PID 的 信号 发 
送 给 组 中 的 所 有 线程 。 事 实 上，POSIX 1003.1c 标 准 规定 一 个 多 线程 应 用 程序 中 的 所 有 
线程 都 必须 有 相同 的 PID。 


遵照 这 个 标准 ，Linux 引入 线程 组 的 表示 。 一 个 线程 组 中 的 所 有 线程 使 用 和 该 线程 组 的 
领头 线程 (thread group leader) 相同 的 PID ， 也 就 是 该 组 中 第 一 个 轻 量 级 进程 的 PID， 
它 被 存 和 人 进程 描述 符 的 tgid 字段 中 。getpid() 系 统 调用 返回 当前 进程 的 tgid 值 而 
不 是 pid 的 值 ， 因 此, 一 个 多 线程 应 用 的 所 有 线程 共享 相同 的 PID。 绝 大 多 数 进 程 都 属 
于 一 个 线程 组 ,包含 单一 的 成 员 ; 线程 组 的 领头 线程 其 tgid 的 值 与 pid 的 值 相同 ， 因 
而 getpid() 系 统 调 用 对 这 类 进程 所 起 的 作用 和 一 般 进程 是 一 样 的 。 


下 面 , 我 们 将 向 你 说 明 如 何 从 进程 的 PID 中 有 效 地 导出 它 的 描述 符 指 针 。 效 率 至 关 重 要 ， 
因为 像 ki11 () 这 样 的 很 多 系统 调用 使 用 PID 表示 所 操作 的 进程 。 


进程 描述 符 处 理 


进程 是 动态 实体 ,其 生命 周期 范围 从 几 毫 秒 到 几 个 月 。 因 此， 内 核 必须 能 够 同时 处 理 很 多 
进程 , 并 把 进程 描述 符 存 放 在 动态 内 存 中 ,而 不 是 放 在 永久 分 配给 内 核 的 内 存 区 (译注 1 )。 
对 每 个 进程 来 说 ，Linux 都 把 两 个 不 同 的 数据 结构 紧凑 地 存放 在 一 个 单独 为 进程 分 配 的 存 
储 区 域内 : 一 个 是 内 核 态 的 进程 堆栈 ， 另 一 个 是 紧 挨 进程 描述 符 的 小 数据 结构 
thread_info, 叫做 线程 摘 述 符 , 这 块 存储 区 域 的 大 小 通常 为 8192 个 字 布 (两 个 页 框 )。 考 
虑 到 效率 的 因素 ,内 核 让 这 8K 空间 占据 连续 的 两 个 页 框 并 让 第 一 个 页 框 的 起 始 地 址 是 2” 
的 倍数 。 当 几乎 没有 可 用 的 动态 内 存 空间 时 ,就 会 很 难 找到 这 样 的 两 个 连续 页 框 ， 因为 空 
办 空间 可 能 存在 大 量 碎片 ( 见 第 八 章 “伙伴 系统 算法 ”一 市 )。 因 此 ， 在 80x86 体系 结构 
中 ,在 编译 时 可 以 进行 设置 ,以 使 内 核 栈 和 线程 描述 符 跨越 一 个 单独 的 页 框 (4096 个 字 市 )。 


译注 1: 这 里 的 内 存 区 是 指 线 性 地 址 空间 中 的 一 个 区 域 ， 分 配给 内 核 的 线性 地 址 空间 在 3GB 之 
ee 
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在 第 二 章 “Linux 中 的 分 段 ” 一 节 中 我 们 已 经 知道 ， 内 核 态 的 进程 访问 处 于 内 核 数据 自 
的 栈 ， 这 个 栈 不 同 于 用 户 态 的 进程 所 用 的 栈 。 因 为 内 核 榨 制 路 径 使 用 很 少 的 栈 , 因此 只 
需要 几 千 个 字 节 的 内 核 太 堆栈。 所以， 对 栈 和 上 hreaa_info 结构 来 说 ，8KB 足够 了 。 
不 过 , 当 使 用 一 个 页 框 存放 内 核 态 堆栈 和 thread_info 结 构 时 , 内 核 要 采用 一 些 额 外 
的 栈 以 防止 中 断 和 异常 的 深度 嵌 套 而 引起 的 溢出 ( 见 第 四 章 )。 


图 3-2 显 示 了 在 2 页 (8KB) 内 存 区 中 存放 两 种 数据 结构 的 方式 。 线 程 的 述 符 驻 留 于 这 
个 肉 存 区 的 开始 ， 而 栈 从 末端 同 下 增长 。 该 图 还 显示 了 分 别 通过 上 ask 和 threadq_infto 
字段 使 threaad_infte 结构 与 task_struct 结构 互相 关联 。 


PE 


Ox015fbfff 


0x015fb000 上 |: 


进程 描述 符 。 


0x015fa878 |: 





Re Po Oe 二 thread_jinfo | 
Ox015fa034 mn a WS | 


thread_info 


Ci 总 


0x015fa000 | | current 








图 3-2，thread_info 结构 和 进程 内 核 栈 存放 在 两 个 连续 的 页 框 中 


esp 寄存 絮 是 CPU 栈 指针 ， 用 来 存放 栈 了 项 单元 的 地 址 。 在 80x86 系统 中 ， 枝 起 始 于 末 
靖 ， 并 朝 这 个 内 存 区 开始 的 方向 增长 。 从 用 户 态 刚 切 换 到 内 核 态 以 后 ,进程 的 内 核 栈 总 
是 空 的 ， 因 此 ，esp 寄存 器 指向 这 个 栈 的 顶端 。 


一 旦 数据 写 和 人 堆栈 ，esp 的 值 就 递减 。 因 为 thread_info 结构 是 52 个 字 节 长 ， 因 此 
内 核 栈 能 扩展 到 8140 个 字 节 ， 


C 语言 使 用 下 列 的 联合 结构 方便 地 表示 一 个 进程 的 线程 描述 符 和 内 核 栈 : 


人 hiv union 1 
StIUC read_info thread info; 
可 ljong stack[2048]; /* 对 4K 的 栈 数组 下 标 是 1024 */ 
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如 图 3-2 所 示 ，thread_info 结 构 从 0x015fa000 地 址 处 开始 存放 ， 而 栈 从 0x015fc000 
地 址 处 开始 存放 。esp 寄存 器 的 值 指 同 地 址 为 0x015fa878 的 当前 栈 顶 。 


内 核 使 用 alloc_threaqd_info 和 free_threaqd_info 宏 分 配 和 释放 存储 thread_info 
结构 和 内 核 栈 的 内 存 区 。 


标识 当前 进程 

从 效率 的 观点 来 看 , 刚才 所 讲 的 thread_info 结 构 与 内 核 态 堆栈 之 间 的 紧密 结合 提供 的 主 
要 好 处 是 : 内 核 很 容易 从 esp 寄 存 器 的 值 获得 当前 在 CPU 上 正在 运行 进程 的 thread_info 
结构 的 地 址 。 事 实 上 ， 如 果 thread_union 结 构 长 度 是 8K (2 他方)， 则 内 核 屏蔽 掉 esp 
的 低 13 位 有 效 位 就 可 以 获得 thread_info 结 构 的 基地 址 ， 而 如 果 thread_union 结 构 长 度 
是 4K， 内 核 需 要 屏蔽 掉 esp 的 低 12 位 有 效 位 。 这 项 工作 由 current_thread_info() 隔 
数 来 完成 ， 它 产生 如 下 一 些 汇 编 指令 : 

mov] S$Oxffffe000，%gecx /* 或 者 是 用 于 4K 堆栈 的 Oxfffff000*/y 


andl %esp, %ecx 
movl %ecx, Pp 


这 三 条 指令 执行 以 后 ,Pp 就 包含 在 执行 指令 的 CPU 上 运行 的 进程 的 thread_info 结 构 的 
指针 。 


进程 最 常用 的 是 进程 描述 符 的 地 址 而 不 是 thread_info 结 构 的 地 址 。 为 了 获得 当 
前 在 CPU 上 运行 进程 的 描述 符 指针 ， 内核 要 调用 current 宏 ,该 宏 本 质 上 等 价 于 
current_thread_info()->task， 它 产生 如 下 汇编 语言 指 今 : 

movl S$SOxffffe000,%ecx /* 或 者 是 用 于 4K 堆栈 的 Oxfffff000*/y 


andl geSsP, 和 ecCxX 
movl1 【本 ecCX) ,PP 


因为 task 字段 在 threaq_info 结 构 中 的 偏 移 量 为 0, 所 以 执行 完 这 三 条 指令 之 后 , p 就 
包含 在 CPU 上 运行 进程 的 描述 符 指针 。 


current 宏 经 常 作 为 进程 描述 符 字 段 的 前 缀 出 现在 内 核 代 码 中 , 例如 ,current->pidq 
返回 在 CPU 上 正在 执行 的 进程 的 PID。 


用 栈 存放 进程 描述 符 的 另 一 个 优点 体现 在 多 处 理 器 系统 上 : 如 前 所 述 , 对 于 每 个 硬件 处 
理 器 , 仅 通 过 检查 栈 就 可 以 获得 当前 正确 的 进程 。 早先 的 Linux 版 本 没有 把 内 核 栈 与 进 
程 描述 符 存放 在 一 起 ,而 是 强制 引入 全 局 静态 变量 current 来 标识 正在 运行 进程 的 描 
述 符 。 在 多 处 理 器 系统 上 ， 有 必要 把 current 定义 为 一 个 数组 ， 每 一 个 元 素 对 应 一 个 
可 用 CPU。 
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双 回 链表 


人 在 继续 站 述 内 核 跟 踪 系 统 中 各 种 进程 的 细 市 之 前 , 先 着 重 说 明 实 现 双 同 链表 的 特殊 数据 
结构 的 作用 。 


对 每 个 链表 ， 必须 实 现 一 组 原 语 操 作 : 初始 化 链表 ,插入 和 删除 一 个 元 素 ， 扫描 链表 等 
守 。 这 可 能 既 浪 费 开 发 人 员 的 精力 , 也 因为 对 每 个 不 同 的 链表 都 要 重复 相同 的 原 语 操 作 
而 造成 存储 空间 的 浪费 。 


因此 ，Linux 内 核定 义 了 list_head 数 据 结 构 ， 字 段 next 和 prev 分 别 表示 通用 双 同 
链表 同 前 和 了 向 后 的 指针 元 素 。 不过, 值得 特别 关注 的 是 ，1ist_head 字 有 段 的 指针 中 在 放 
的 是 另 一 个 1ist_heaQ 字段 的 地 址 ， 而 不 是 含有 list_head 结构 的 整个 数据 结构 地 址 
[参见 图 3-3 (a)]。 





数据 结构 1 数据 结构 2 数据 结构 3 








list head list head list head 
list head rT next | 
next 轩 | —3 


BrIev 


一 一 一 一 -一 i i 





prev 


(al 一 个 市 有 3 个 元 素 的 双向 链表 


tbj 一 个 空 双向 链表 





3-3: 用 list_head 数据 结构 构造 的 一 个 双向 链表 


新 链表 是 用 LIST_HEAD(l1ist_name) 宏 创建 的 。 它 申明 类 型 为 1ist_head 的 新 变量 
list_name, 该 变量 作为 新 链表 头 的 占 位 符 , 是 一 个 吐 元 素 , LIST_HEAD(list_name) 
宏 还 初始 化 1ist_head 数 据 结 构 的 prev 和 next 字段 ， 让 它们 指向 1ist_name 变量 
本 身 。 见 图 3-3 (b)。 


有 儿 个 实现 原 请 的 函数 和 安 ， 如 表 3-1 所 示 。 
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表 3-1: 处 理 函 数 和 安 

名 称 说 明 

list_adqd (n,p) 、 ”把 n 指 向 的 元 素 插入 p 所 指向 的 特定 元 素 之 后 (为 了 
把 n 插 入 在 链表 的 开始 ， 就 设置 p 为 第 一 个 元 素 的 地 
址 ) 

list_add tail (n,p) 把 n 指向 的 元 素 插 到 p 所 指向 的 特定 元 素 之 前 (为 了 
把 n 插入 在 链表 的 尾部 ， 就 设置 p 为 第 一 个 元 素 的 地 
址 ) | 

liat -deL(tD) 删除 p 所 指 问 的 元 素 ( 没有 必要 指定 链表 的 第 一 个 
元 素 ) 

list_empty (p) 检查 由 第 一 个 元 素 的 地 址 p 指定 的 链表 是 否 为 空 

1 返回 类 型 为 t 的 数据 结构 的 地 址 ， 其 中 类 型 t 中 含有 
list_head 字 7 段 ， 而 list_head 字 7 段 中 含有 和 名字 m 和 
地 址 p 

list_ for_each(p,h) 对 表 头 地 址 hn 指定 的 链表 进行 扫描 ， 在 每 次 循环 时 ， 
通过 p 返回 指向 链表 元 素 的 1ist_head 结构 的 指针 

list for each enEEy En m) 与 1ist_for_each 类 似 , 但 是 返回 包含 了 list_head 
结构 的 数据 结构 的 地 址 ， 而 不 是 1ist_head 结 构 本 身 
的 地 址 

Linux 2.6 内 核 支 持 另 一 种 双 同 链表 ， 其 与 list_head 有 着 明显 的 区 别 ， 因 为 它 不 是 循环 

链表 , 主要 用 于 散 列 表 , 对 散 列 表 而 言 重 要 的 是 空间 而 不 是 在 固定 的 时 间 内 找到 表 中 的 最 

后 一 个 元 素 。 表 头 存放 在 hlist_heaq 数 据 结构 中 ， 该 结构 只 不 过 是 指向 表 的 第 一 个 元 素 

的 指针 (如 果 链 表 为 空 ， 那 么 这 个 指针 为 NULL)。 每 个 元 素 都 是 hlist_node 类 型 的 数 

据 结构 ， 它 的 next 指针 指向 下 一 个 元 素 ,， pprev 指针 指向 前 一 个 元 素 的 next 字段 。 

为 不 是 循环 链表 ， 所 以 第 一 个 元 素 的 pprev 字段 和 最 后 一 个 元 素 的 next 字段 都 置 为 

NULL。 对 这 种 表 可 以 用 类 似 表 3-1 中 的 函数 和 宏 (hlist add_head(), hlist_del ()， 

hlist_empty(),hlist_entry，hlist_for_each_entry) 来 操纵 。 


进程 链表 


我 们 首先 介绍 双向 链表 的 第 一 个 例子 一 一 进程 链表 ， 进 程 链 表 把 所 有 进程 的 描述 符 链 
接 起 来 。 每 个 task_struct 结构 都 包含 一 个 list_head 类 型 的 tasks 字段 ， 这 个 类 型 
的 prev 和 next 字段 分 别 指向 前 面 和 后 面 的 task_struct 元 素 。 


进程 链表 的 头 是 init_task 找 述 符 ， 它 是 所 谓 的 0 进程 (process 0) 或 swapper 进程 的 
进程 描述 符 〈 参 见 本 章 “ 内 核 线程 ”一 节 )。init_task 的 tasks.prev 字 段 指向 链表 中 
最 后 插入 的 进程 描述 符 的 tasks 字段 。 
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SET_LINKS 和 REMOVE_LINKS 宏 分 别 用 于 从 进程 链表 中 揪 入 和 删除 一 个 进程 摘 述 符 。 
这 些 宏 考虑 了 进程 间 的 父子 关系 ( 见 本 章 后 面 “ 如 何 组 织 进 程 ” 一 节 )。 


还 有 一 个 很 有 用 的 宏 就 是 for_each_process, 它 的 功能 是 扫描 整个 进程 链表 , 其 定 
义 如 下 : 
#define for_each process (p) \ 
for (p=&init task; (p=list entry({p)->tasks.next, 

struct task_ struct, tasks) \ 

) 1= &init task; ) 
这 个 宏 是 循环 控制 语句 , 内 核 开 发 者 利用 它 提供 循环 。 注 意 init_task 进 程 描 述 符 是 如 
何 起 到 链表 头 作 用 的 。 这 个 宏 从 指向 init_task 的 指针 开始 ， 把 指针 移 到 下 一 个 任务 ， 
然后 继续 ， 直 到 又 到 init_task 为 止 《 感 谢 链 表 的 循环 性 ) 。 在 每 一 次 循环 时 ， 传 递 给 
这 个 宏 的 参 变量 中 存放 的 是 当前 被 扫描 进程 描述 符 的 地 址 ， 这 与 1ist_entry 宏 的 返回 
值 一 样 。 


TASK_RUNNING 状态 的 进程 链表 


当 内 核 寻 找 一 个 新 进程 在 CPU 上 运行 时 , 必须 只 考虑 可 运行 进程 ( 即 处 在 TASK_RUNNING 
状态 的 进程 )。 


早先 的 Linux 版 本 把 所 有 的 可 运行 进程 都 放 在 同一 个 叫做 运行 队列 (rungueue) 的 链表 
中 , 由 于 维持 链表 中 的 进程 按 优 先 级 排序 开销 过 大 , 因此， 早期 的 调度 程序 不 得 不 为 选 
择 最 佳 ”可 运行 进程 而 扫描 整个 队列 。 


Linux 2.6 实现 的 运行 队列 有 所 不 同 。 其 目的 是 让 调度 程序 能 在 固定 的 时 间 内 选 出 “最 
佳 ” 可 运行 进程 ， 与 队列 中 可 运行 的 进程 数 无 关 。 我们 仅 在 此 提供 一 些 基本 信息 , 第 七 
会 详细 描述 这 种 新 的 运行 队列 。 


提高 调度 程序 运行 速度 的 诀窍 是 建立 多 个 可 运行 进程 链表 ,每 种 进程 优先 权 对 应 一 个 不 
同 的 链表 。 每 个 task_struct 描 述 符 包含 一 个 1ist_head 类 型 的 字段 run_list。 如 
果 进 程 的 优先 权 等 于 上 (其 取 值 范围 是 0 到 139) ，run_list 字 段 把 该 进程 链 入 优先 权 为 
k 的 可 运行 进程 的 链表 中 。 此外, 在 多 处 理 器 系统 中 , 每 个 CPU 都 有 它 自己 的 运行 队列 ， 
即 它 目 己 的 进程 链表 集 。 这 是 一 个 通过 使 数据 结构 更 复杂 来 改善 性 能 的 典型 例子 : 调度 
程序 的 操作 效率 的 确 更 高 了 , 但 运行 队列 的 链表 却 为 此 而 被 拆 分 成 140 个 不 同 的 队列 ! 


正如 我 们 将 看 到 的 , 内 核 必须 为 系统 中 每 个 运行 队列 保存 大 量 的 数据 , 不 过 运行 队列 的 
主要 数据 结构 还 是 组 成 运行 队列 的 进程 描述 符 链 表 ， 所 有 这 些 链 表 都 由 一 个 单独 的 
prio_array_t 数据 结构 来 实现 ， 其 字段 说 明 如 表 3-2 所 示 。 
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表 3-2: prio_array_t 数 据 结构 的 字段 


类 型 字段 描述 

int nr_active 链表 中 进程 描述 符 的 数量 

unsigned long [5] bitmap 优先 权 位 图 : 当 且 仅 当 某 个 优先 权 的 
进程 链表 不 为 空 时 设置 相应 的 位 标志 

struct list heaqd [140] queue 140 个 优先 权 队 列 的 头 结 点 


enqueue_task (p,array) 胃 数 把 进程 描述 符 插入 某 个 运行 队列 的 链表 ,其 代码 本 质 上 等 
同 于 : 

list_add tail{&gp->run_list, &karray->queue [lp->prio]}; 

__set _ bit(p->prio, array->bitmap); 


array->nr_active+t++; 
Dp->array = array, 


进程 描述 符 的 prio 字 段 存放 进程 的 动态 优先 权 , 而 array 字段 是 一 个 指针 , 指向 当前 
运行 队列 的 prio_array_t 数 据 结构 。 类 似 地 ，dequeue_task(p,array ) 函数 从 运行 
队列 的 链表 中 删除 一 个 进程 的 描述 符 。 


进程 间 的 关系 

程序 创建 的 进程 具有 父 / 子 关系 。 如 果 一 个 进程 创建 多 个 子 进程 时 ， 则 子 进程 之 间 具 有 
兄弟 关系 。 在 进程 描述 符 中 引入 几 个 字段 来 表示 这 些 关 系 ， 表 示 给 定 进程 P 的 这 些 字段 
列 在 表 3-3 中 。 进 程 0 和 进程 1 是 由 内 核 创建 的 ， 稍 后 我 们 将 看 到 ， 进 程 1 (init) 是 所 
有 进程 的 祖先 。 


表 3-3: 进程 描述 符 中 表示 进程 亲属 关系 的 字段 的 描述 


字段 名 说 明 


real_parent 指向 创建 了 P 的 进程 的 描述 符 ， 如 果 P 的 父 进程 不 再 存在 ， 就 指向 
进程 1 (init) 的 描述 符 ( 因 此， 如 果 用 户 运 行 一 个 后 台 进 程 而 且 退 
出 了 shell， 后 台 进 程 就 会 成 为 init 的 子 进程 ) 

parent 指向 P 的 当前 父 进 程 (这 种 进程 的 子 进程 终止 时 ， 必须 向 父 进程 发 信 
号 )。 它 的 值 通常 与 real_parent 一 致 ， 但 偶尔 也 可 以 不 同 ， 例 如 ， 
当 另 一 个 进程 发 出 监控 P 的 ptrace() 系 统 调用 请 求 时 (参见 第 二 十 章 
中 “执行 跟踪 ”一 节 ) 

children 链表 的 头 部 ， 链 表 中 的 所 有 元 素 都 是 P 创建 的 子 进程 

sibling 指向 兄弟 进程 链表 中 的 下 一 个 元 素 或 前 一 个 元 素 的 指针 ， 这 些 兄弟 
进程 的 父 进 程 都 是 P 
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下 


图 3-4 显示 了 一 组 进程 辣 的 淋 属 关系 。 进 程 P0 接连 创建 了 P1，P2， 和 了 P3。 进 程 P3 又 
创建 了 P4。 


特别 要 说 明 的 是 , 进程 乙 则 还 存在 其 他 关系 : 一 个 进程 可 能 是 一 个 进程 组 或 登录 会 话 的 
领头 进程 【参见 第 一 章 “ 进 程 管理 ”一 节 )， 也 可 能 是 一 个 线程 组 的 领头 进程 (参见 本 
章 前 面 “标识 一 个 进程 ”一 节 ) ， 它 还 可 能 跟踪 其 他 进程 的 执行 《参见 第 二 十 章 “ 执 行 
跟踪 一世)。 表 3-4 列 出 了 进程 摘 述 符 中 的 一 些 字段 ， 这些 字 段 建立 起 了 进程 P 和 其 他 
进程 之 则 的 关系 。 





-sibling.next 





a Pe Sibjing.prev 
— -children.next 
一- - 一 一 - -了 Children. prey 








图 3-4: 五 个 进程 间 的 亲属 关系 


表 3-4: 建立 非 杀 属 关 系 的 进程 描述 符 字段 


字段 名 说 明 

group_leader P 所 在 进程 组 的 领头 进程 的 描述 侍 指 针 

sigqnal->pgrp P 所 在 进程 组 的 领头 进程 的 PID 

tgid P 所 在 线程 组 的 领头 进程 的 PID 

signal->session P 的 登 永 会 话 领头 进程 的 PLD 

ptrace children 链表 的 头 ， 该 链表 包含 所 有 被 debugger 程序 跟踪 有 的 PP 的 子 进程 
ptrace_list 指向 所 跟踪 进程 其 实际 父 进 程 链表 的 前 一 个 和 下 一 个 元 素 ( 用 于 


P 被 跟踪 的 时 修 ) 


pidhash 表 及 链表 
在 儿 种 情况 下 , 内 核 必 须 能 从 进程 的 PID 导 出 对 应 的 进程 描述 符 指 针 。, 例如, 为 Kill() 
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系统 调用 提供 服务 时 就 会 发 生 这 种 情况 : 当 进 程 P1 和 希望 向 另 一 个 进程 P2 发 送 一 个 信和 号 
时 ，P1 调用 kill() 系 统 调用 ， 其 参数 为 P2 的 PID， 内 核 从 这 个 PID 导出 其 对 应 的 进 
程 描述 符 ， 然 后 从 P2 的 进程 描述 符 中 取出 记录 挂 起 信号 的 数据 结构 指针 。 


顺序 扫描 进程 链表 并 检查 进程 找 述 符 的 pid 字段 是 可 行 但 相当 低 效 的 。 为 了 加 速 查找 ， 
引入 了 4 个 散 列表 。 需 要 4 个 散 列表 是 因为 进程 描述 符 包含 了 表示 不 同类 型 PID 的 字段 
( 见 表 3-5)， 而且 每 种 类 型 的 PID 需要 它 上 自己 的 散 列 表 。 


表 3-5: 4 个 散 列表 和 进程 描述 符 中 的 相关 字段 


Hash 表 的 类 型 字段 名 说 明 

PIDTYPE_PID pid 进程 的 PID 
PIDTYPE_TGID tgid 线程 组 领头 进程 的 PID 
PIDTYPE_ PGID pgrp 进程 组 领头 进程 的 PID 
PIDTYPE_SID session 会 话 领头 进程 的 PID 


内 核 初始 化 期 间 动 态 地 为 4 个 散 列表 分 配 空间 ， 并 把 它们 的 地 址 存 人 pid_hash 数组 。 
一 个 散 列 表 的 长 度 依赖 于 可 用 RAM 的 容量 , 例如 : 一 个 系统 拥有 512 MB 的 RAM,， 那 
么 每 个 散 列表 就 被 存在 4 个 页 框 中 ， 可 以 拥有 2048 个 表 项 。 


用 piq_nashfn 宏 把 PID 转化 为 表 索 引 ，piaq_hashfn 宏 展 开 为 : 


#define pid hashfn(x) hash_long((unsigned long) x, pidhash_shift) 


变量 pidhash_shift 用 来 存放 表 索 引 的 长 度 (以 位 为 单位 的 长 度 ， 在 我 们 的 例子 里 是 
11 位 )。 很 多 散 列 函 数 都 使 用 hash_long(), 在 32 位 体系 结构 中 它 基 本 等 价 于 : 
unsigneqd long hash_long (unsigned long val, unsigned int bits) 
{ 
unsigned long hash = val * Ox9e370001UL; 


return hash >> {32 - bits); 
} 


因为 在 我 们 的 例子 中 pidhash_shift 等 于 11， 所 以 piq_hashfn 的 取 值 范围 是 0 到 2 
一 1=2047。 


正如 计算 机 科学 的 基础 课程 所 阐述 的 那样 ， 散 列 (hash) 函数 并 不 总 能 确保 PID 与 表 的 
索引 一 一 对 应 。 两 个 不 同 的 PID 散 列 (hash) 到 相同 的 表 索 引 称 为 冲突 (colliding )。 
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| 魔 数 常量 
也 许 你 会 想 常量 0x9e370001(= 2 654 404 609) 完 竞 是 怎么 得 出 的 。 这 种 散 列 
省 数 是 基于 表 索 引 乘 以 一 个 舌 当 的 大 数 ， 于 是 结果 溢出 ,就 把 留 在 32 位 变量 
中 的 值 作 为 模 数 操 作 的 结果 . Knuth 建 议 , 要 得 到 满意 的 结果 , 这 个 大 乘 数 就 
应 当 是 接近 黄金 比例 的 2322 的 一 个 素数 (32 位 是 80x86 寄 存 器 的 大 小 ) 。 这 里 ， 
2 654 404 609 就 是 接近 232 x (VS -1)/2 的 一 个 素数 ,这 个 数 可 以 方便 地 通过 
加 运算 和 位 移 运 算得 到 ， 因 为 它 等 于 : 231+229-225+222-219-2!6+1 。 








Linux 利 用 链表 来 处 理 冲 突 的 PID : 每 一 个 表 项 是 由 冲突 的 进程 描述 符 组 成 的 双 癌 链表 。 
图 3-5 显示 了 具有 两 个 链表 的 PID 散 列表 。 进 程 号 (PID) 为 2890 和 29 384 的 两 个 进 
程 散 列 到 这 个 表 的 第 200 个 元 素 ， 而 进程 号 (PID) 为 29 385 的 进程 散 列 到 这 个 表 的 第 
1 466 个 元 素 。 


PID 哈 希 表 





3-5; pidhash 表 及 链表 


具有 链表 的 散 列 法 比 从 PID 到 表 索 引 的 线性 转换 更 优越 ,这 是 因为 在 任何 给 定 的 实例 中 ， 
系统 中 的 进程 数 总 是 远 远 小 于 32 768 (所 允许 的 进程 PID 的 最 大 数 )。 如 果 在 任何 给 定 
的 实例 中 大 部 分 表 项 都 不 使 用 的 话 ， 那 么 把 表 定义 为 32 768 项 会 是 一 种 存储 浪费 。 


由 于 需要 跟踪 进程 则 的 关系 ，PID 散 列表 中 使 用 的 数据 结构 非常 复杂 。 看 一 个 例子 : 假 
设 内 核 必须 回收 一 个 指定 线程 组 中 的 所 有 进程 ,这 意味 着 这 些 进程 的 tcgid 的 值 是 相同 
的 ， 都 等 于 一 个 给 定 值 。 如 果 根 据 线程 组 号 查找 散 列表 ， 只 能 返回 一 个 进程 描述 符 ， 就 
是 线程 组 领头 进程 的 描述 符 。 为 了 能 快速 返回 组 中 其 他 所 有 进程 , 内核 就 必须 为 每 个 线 
程 组 保留 一 个 进程 链表 。 在 查找 给 定 登 录 会 话 或 进程 组 的 进程 时 也 会 有 同样 的 情形 。 


PID 散 列表 的 数据 结构 解决 了 所 有 这 些 难 题 , 因为 它们 可 以 为 包含 在 一 个 散 列 表 中 的 任 


进程 99 


何 PID 号 定义 进程 链表 。 了 最 主要 的 数据 结构 是 四 个 pi 结构 的 数组 ,， 它 在 进程 描述 符 的 
pia 字 段 中 , 表 3-6 显示 了 pid 结构 的 字段 。 


表 3-6:， pid 结构 的 字段 


类 型 名 称 换 述 

int nr pid 的 数值 

struct hlist node Did_chain 链接 散 列 链表 的 下 一 个 和 前 一 个 元 素 
struct list head pid_list 每 个 pid 的 进程 链表 头 






Pp Tolp PGID SID 
2 





process descriptor 








哈 希 链表 


3-6: PID 散 列 表 


3-6 给 出 了 EIDTYPE_TGID 类 型 散 列 表 的 例子 。pia_hasnh 数 组 的 第 二 个 元 素 存 放 
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散 列 表 的 地 址 ,也 就 是 用 hlist_head 结 构 的 数组 表示 链表 的 头 。 在 散 列表 第 71 项 为 起 
点 形成 的 链表 中 ， 有 两 个 PID 号 为 246 和 4351 的 进程 描述 符 ( 双 箭头 线 表示 一 对 向 前 
和 办 后 的 指针 )。PID 的 值 存放 在 piad 结构 的 nr 字段 中 , 而 pid 结构 在 进程 描述 符 中 。 
(顺便 提 一 下 ， 由 于 线程 组 的 号 和 它 的 首创 者 的 PID 相同 ， 因 此 这 些 PID 值 也 存在 进程 
描述 符 的 pia 字段 中 。) 我 们 考虑 线程 组 4351 的 PID 链表 : 散 列 表 中 的 进程 描述 符 的 
pid_list 字 段 中 存放 链表 的 头 , 同时 每 个 PID 链 表 中 指向 前 一 个 元 素 和 后 一 个 元 素 的 
指针 也 存放 在 每 个 链表 元 素 的 pid_1l1ist 字段 中 。 


下 面 是 处 理 PID 散 列 表 的 函数 和 宏 : 


do_each task_ pidl(nr,type,task) 
while each task_pidl(nr,type,task) 
标记 do-while 循环 的 开始 和 结束 ， 循环 作用 在 PID 值 等 于 nr 的 PID 链 表 上 , 链表 
的 类 型 由 参数 type 给 出 ，task 参数 指向 当前 被 扫描 的 元 素 的 进程 描述 符 。 
find. task_by_pid type (type,nr) 
在 type 类 型 的 散 列表 中 查找 PID 等 于 nr 的 进程 。 访 函数 返回 所 匹配 的 进程 描述 
符 指 针 ， 若 没有 匹配 的 进程 ， 函 数 返 回 NULL。 


find_ task_ by_pidi{nr) 
与 fina_ task by_piqd type(PIDTYPE_PID, nr) 相同。 


attach pidl(task,type,nr) 
把 task 指向 的 PID 等 于 nr 的 进程 描述 符 插入 type 类 型 的 散 列表 中 。 如 果 一 个 
PID 和 等 于 nr 的 进程 描述 符 已 经 在 散 列表 中 , 这 个 函数 就 只 把 task 揪 入 已 有 的 PID 
进程 链表 中 。 

detach_pidl(task, type,) 
从 type 类 型 的 PID 进程 链表 中 删除 task 所 指向 的 进程 描述 符 。 如 果 删 除 后 PID 
进程 链表 没有 变 为 空 , 则 函数 终止 , 否则 , 该 函数 还 要 从 type 类 型 的 散 列 表 中 删 
除 进 程 描述 符 。 最 后 , 如 果 PID 的 值 没 有 出 现在 任何 其 他 的 散 列 表 中 , 为 了 这 个 值 
能 够 被 反复 使 用 ， 该 函数 还 必须 清除 PID 位 图 中 的 相应 位 。 

next thread (task) 
返回 PIDTYPE_TGID 类 型 的 散 列表 链表 中 task 指 示 的 下 一 个 轻 量 级 进程 的 进程 
描述 符 。 由 于 散 列 链表 是 循环 的 , 若 应 用 于 传统 的 进程 , 那么 该 宏 返回 进程 本 身 的 
描述 符 地 址 。 
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如 何 组 织 进 程 


运行 队列 链表 把 处 于 TASK_RUNNING 状态 的 所 有 进程 组 织 在 一 起 。 当 要 把 其 他 状态 的 
进程 分 组 时 ， 不 同 的 状态 要 求 不 同 的 处 理 ，Linux 选择 了 下 列 方式 之 一 : 


e 没有 为 处 于 TASK_STOPPED、EXIT_ZOMBIE 或 EXIT_DEAD 状态 的 进程 建立 专 
门 的 链表 。 由 于 对 处 于 暂停 、 翁 死 、 死亡 状态 进程 的 访问 比较 简单 ,或 者 通过 PID， 
或 者 通过 特定 父 进 程 的 子 进程 链表 ， 所 以 不 必 对 这 三 种 状态 进程 分 组 。 

。 ”没有 为 处 于 、 状 态 的 进程 建立 专门 的 链表 。 由 于 对 处 于 暂停 、 僵 死 、 死 亡 状 态 进程 
的 访问 比较 简单 , 或 者 通过 PID, 或 者 通过 特定 父 进 程 的 子 进程 链表 ， 所 以 不 必 对 
这 三 种 状态 进程 分 组 。 


等 待 队列 


等 待 队 列 在 内 核 中 有 很 多 用 途 , 尤其 用 在 中 断 处 理 、 进 程 同 步 及 定时 。 因 为 这 些 主 题 将 
在 以 后 的 章节 中 讨论 ,所 以 我 们 只 在 这 里 说 明 ,， 进程 必须 经 常 等 待 某 些 事 件 的 发 生 , 例 
如 ， 等 待 一 个 磁盘 操作 的 终止 ， 等 待 释放 系统 资源 ， 或 等 待 时 间 经 过 固定 的 间隔 。 等 待 
队列 实现 了 在 事件 上 的 条 件 等 待 :希望 等 待 特定 事件 的 进程 把 自己 放 进 合适 的 等 待 队 列 ， 
并 放弃 控制 权 。 因 此 ， 等待 队列 表示 一 组 睡眠 的 进程 ， 当 某 一 条 件 变 为 真 时 ， 由 内 核 唤 
醒 它 们 。 


等 待 队 列 由 双向 链表 实现 , 其 元 素 包 括 指向 进程 描述 符 的 指针 。 每 个 等 待 队 列 都 有 一 个 等 
待 队列 头 (waif queue head) ,等待 队列 头 是 一 个 类 型 为 wait_queue_headq 上 的 数据 结构 ; 


Struct _ wait queue head ({ 
spinlock_t lock; 
struct list head task_list; 
}; 
typedef struct _ _wait_queue head wait queue head_t,; 


因为 等 待 队 列 是 由 中 断 处 理 程 序 和 主要 内 核 函 数 修改 的 ,因此 必须 对 其 双向 链表 进行 
护 以 免 对 其 进行 同时 访问 ， 因 为 同时 访问 会 导致 不 可 预测 的 后 果 (参见 第 五 章 )。 同 步 
是 通过 等 待 队列 头 中 的 lock 自 旋 锁 达 到 的 。task_1ist 字段 是 等 待 进程 链表 的 头 。 


等 待 队列 链表 中 的 元 素 类 型 为 wait_queue_t: 


struct _ _wait queue { 
unsigned int flags.; 
struct task struct * task:; 
walit queue func_t func; 
struct list_head task_list,; 
} . 


typedef struct _wait_ queue wait_ queue t; 
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等 待 队 列 链表 中 的 每 个 元 素 代 表 一 个 睡眠 进程 ,该 进程 等 待 某 一 事件 的 发 生 : 它 的 描述 
符 地 址 存放 在 task 字 段 中 。 task_list 字 段 中 包含 的 是 指针 , 由 这 个 指针 把 一 个 元 素 
链接 到 等 待 相同 事件 的 进程 链表 中 。 


然而 ， 要 唤醒 等 待 队列 中 所 有 睡眠 的 进程 有 时 并 不 方便 。 例如， 如 采 两 个 或 多 个 进程 正 
在 等 待 互 斥 访问 茶 一 要 释放 的 资源 , 仅 唤醒 等 待 队列 中 的 一 个 进程 才 有 意义 。 这 个 进程 
占有 资源 ， 而 其 他 进程 继续 睡 卢 。( 这 就 避免 了 所 谓 “ 雷 鸣 般 兽 群 ”问题 ， 即 唤醒 多 个 
进程 只 为 了 竞争 一 个 资源 , 而 这 个 资源 只 能 有 一 个 进程 访问 , 结果 是 其 他 进程 必须 再 次 
回去 睡眠 。) 


因此 ， 有 两 种 睡眠 进程 : 互 斥 进程 〈 等 待 队列 元 素 的 Elags 字段 为 1) 由 内 核 有 选择 地 
唤醒 ， 而 非 互 斥 进程 (falgs 值 为 0) 总 是 由 内 核 在 事件 发 生 时 唤醒 。 等 待 访 问 临 界 资 
源 的 进程 就 是 互 斥 进程 的 典型 例子 。 等 待 相关 事件 的 进程 是 非 互 斥 的 。 例 如 , 我 们 考虑 
等 待 磁盘 传输 结束 的 一 组 进程 : 一 但 磁盘 传输 完成 ,所 有 等 待 的 进程 都 会 被 唤醒 。 正 如 
我 们 将 在 下 面 所 看 到 的 那样 ,等待 队 列 元 素 的 func 字 段 用 来 表示 等 待 队列 中 睡眠 进程 应 
该 用 什么 方式 唤醒 。 


等 待 队列 的 操作 

可 以 用 DECLARE_WAIT_QUEUE_HEAD(name) 宏 定义 一 个 新 等 待 队列 的 头 ， 它 静态 地 
声明 一 个 叫 name 的 等 待 队列 的 头 变量 并 对 该 变量 的 1ock 和 task_list 字段 进 行 初 
始 化 。 函 数 init_waitqueue_head() 可 以 用 来 初始 化 动态 分 配 的 等 待 队列 的 头 变量 。 


国 数 init_waitqueue_entry(q,p ) 如 下 所 示 彻 始 化 wait_queue_t 结构 的 变量 qa: 


dq->flags = 0; 
q->task = p; 
q->func = default wake_function,; 
韭 互 斥 进 程 bp 将 由 default_wake_function{() 唤 醒 , default_wake function(}) 是 在 
第 七 章 中 要 讨论 的 try_to_wake_up () 国 数 的 一 个 简单 的 封装 。 


也 可 以 选择 DEFINE_WAIT 宏 声明 一 个 wait_aqueue_t 类 型 的 新 变量 , 并 用 CPU 上 运 
行 的 当前 进程 的 描述 符 和 唤醒 函数 autoremove_wake_function() 的 地 址 初始 化 这 个 新 
变量 。 这 个 函数 调用 default_wake_function() 来 唤醒 睡眠 进程 ， 然 后 从 等 待 队列 的 
链表 中 删除 对 应 的 元 素 ( 每 个 等 待 队列 链表 中 的 一 个 元 素 其 实 就 是 指向 睡眠 进程 描述 符 
的 指针 ) 。 最 后 , 内 核 开发 者 可 以 通过 init_waitqueue_func_entry () 国 数 来 自 定义 唤 
醒 困 数 ， 该 函数 负责 初始 化 等 待 队列 的 元 素 。 


一 但 定义 了 一 个 元 素 ， 必 须 把 它 播 人 等待 队列 。aaqa_wait_queue1() 国 数 把 一 个 非 互 斥 
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进程 插入 等 待 队 列 链表 的 第 一 个 位 置 。adaq_wait_queue_exclusive() 国 数 把 一 个 互 斥 
进程 桂 入 等 待 队 列 链表 的 最 后 一 个 位 置 ,remove_wait_queue() 函 数 从 等 待 队列 链表 中 
删除 一 个 进程 。waitqueue_active() 销 数 检查 一 个 给 定 的 等 待 队列 是 否 为 空 。 


要 等 待 特 定 条 件 的 进程 可 以 调用 如 下 列表 中 的 任何 一 个 国 数 。 
。 sleep_on() 对 当前 进程 进行 操作 : 


void sleep_on(wait_queue_head t *wa) 

( 
wait_queue t wait,; 
jnit waitqueue_entry (twait, current); 
Current->state = TASK_ UNINTERRUPTIBLE; 
add_wait_queue (wq,&wait); /* wdq 指 向 当前 队列 的 头 */ 
schedule(); 
remove_ wait_queue (wdq, &wait).; 


} 


该 国 数 把 当前 进程 的 状态 设置 为 TASK_UNINTERRUPTIBLE, 并 把 它 插 入 到 特定 
的 等 待 队 列 。 然 后 , 它 调用 调度 程序 , 而 调度 程序 重新 开始 另 一 个 程序 的 执行 。 当 
睡眠 进程 被 唤 本 时， 调度 程序 重新 开始 执行 sleep_on ( ) 函数 ， 把 该 进程 从 等 待 
队列 中 删除 。 


. interruptible sleep_onf) 与 sleep_on() 国 数 是 一 样 的 ， 但 稍 有 不 同 ， 前 者 把 
当前 进程 的 状态 设置 为 TASK_INTERRUPTIBLE 而 不 是 TASK_UNINTERRUPTIBLE , 因 
此 ， 接 受 一 个 信号 就 可 以 唤醒 当前 进程 。 

e sleep_on timeout () 和 interruptible_sleep_on timeout () 与 前 面 国 数 类 似 ， 
但 它们 允许 调用 者 定义 一 个 时 间 间 隔 , 过 了 这 个 间隔 以 后 , 进程 将 由 内 核 唤醒 。 为 
了 做 到 这 点 ， 它 们 调用 schequle timeout () 国 数 而 不 是 schedqule() 国 数 (参见 
第 六 章 中 “动态 定时 器 的 应 用 ”一 节 )。 

9 在 Linux 2.6 中 引入 的 prepare_to wait()、prepare to_wait_exclusive() 和 
finish_wait () 国 数 提 供 了 另外 一 种 途径 来 使 当前 进程 在 一 个 等 待 队 列 中 睡眠 。 它 
们 的 典型 应 用 如 下 : 


DEFINE_ WAIT(walt).; 

prepare to_ wait_exclusivel(&wq, twait, TASK_INTERRUPTIBLE); 
/* wq 是 等 待 队列 的 涉 */ 

It (!condition) 


schedule(}; 
finish wait (&wq, &wait),; 


国 数 prepare_to_ wait () 和 prepare_to wait_exclusive() 用 传递 的 第 三 个 参 
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数 设置 进程 的 状态 ， 然 后 把 等 待 队 列 元 素 的 互 斥 标志 flag 分别 设置 为 0 ( 非 互 斥 ) 
或 1 ( 互 斥 )， 最 后 ， 把 等 待 元 素 wait 插入 到 以 wd 为 头 的 等 待 队 列 的 链表 中 。 


进程 一 但 被 唤醒 就 执行 finish_wait () 函数 , 它 把 进程 的 状态 再 次 设置 为 TASK_RUNNING 
( 仅 发 生 在 调用 schedule() 之 前 , 唤醒 条 件 变 为 真 的 情况 下 ), 并 从 等 待 队列 中 删除 等 
待 元 素 (除非 这 个 工作 已 经 由 唤醒 函数 完成 )。 


. wait_event 和 wait_event_interruptible 宏 使 它们 的 调用 进程 在 等 待 队 列 上 睡 
眠 ， 一 直到 修改 了 给 定 条 件 为 止 。 例 如 ， 宏 wait_event(wq,condition) 本 质 上 
实现 下 面 的 功能 : 

DEFINFE_WAIT(_. .wait); 
for (;;) 1{ 
prepare_to wait (&wq, &,_ _wait, TASK_UNINTERRUPTIBLE).:; 
if (condition) 
break:; 
schedule(}: 
} 
finish wait{&wdq, &_ _wait); 

对 上 面 列 出 的 函数 做 一 些 说 明 : sleep_on() 类 函数 在 以 下 条 件 下 不 能 使 用 ， 那 就 是 必须 测试 

条 件 并 且 当 条 件 还 设 有 得 到 验证 时 又 紧 接 着 让 进程 去 睡眠 ; 由 于 那些 条 件 是 众所周知 的 竞争 条 

件 产生 的 根源 , 所 以 不 鼓励 这 样 使 用 。 此外, 为 了 把 一 个 互 斥 进程 插入 等 待 队列 , 内 核 必 须 使 

用 prepare_to wait_exclusive!() 国 数 [或 者 只 是 直接 调用 add wait_queue_exclusive()]。 

所 有 其 他 的 相关 函数 把 进程 当 作 非 互 斥 进 程 来 插入 。 最 后 ， 除 非 使 用 DEFINE_WAIT 或 

finish_wait ()， 否 则 内 核 必 须 在 唤醒 等 待 进程 后 从 等 待 队 列 中 删除 对 应 的 等 待 队 列 元 素 。 


内 核 遂 过 下 面 的 任何 一 个 宏 唤 醒 等 待 队 列 中 的 进程 并 把 它们 的 状态 置 为 TASK_RUNNING: 
wake_ up,wake up_nr,wake _ up_all,wake _ up interruptible, 
wake_up_interruptible nr,wake up_interruptible_all, 
wake_up_interruptible_sync 和 wake_up_lockedq。 从 每 个 宏 的 名 字 我 们 可 以 
明白 其 功能 : 


。 “所 有 宏 都 考虑 到 处 于 TASK_INTERRUPTIBLE 状态 的 睡眠 进程 ,如 果 宏 的 名 字 中 
不 含 字 符 串 "interruptible"， 那 么 处 于 TASK_UNINTERRUPTIBLE 状态 的 睡眠 进 
程 也 被 考虑 到 。 

。 ”所 有 宏 都 唤醒 具有 请 求 状态 的 所 有 非 互 斥 进 程 (参见 上 一 项 )。 

。 ”名字 中 含有 “nr ”字符 串 的 宏 唤 醒 给 定数 的 具有 请 求 状 态 的 互 斥 进程 ; 这 个 数字 是 
宏 的 一 个 参数 。 名 字 中 含有 “all ”字符 串 的 宏 唤 醒 具 有 请 求 状 态 的 所 有 互 斥 进程 。 
最 后 , 名 字 中 不 含 “nr” 或 “all” 字符 串 的 宏 只 唤醒 具有 请 求 状态 的 一 个 互 斥 进 程 。 

。 ”名 字 中 不 含有 “sync” 字符 串 的 宏 检 查 被 唤醒 进程 的 优先 级 是 否 高 于 系统 中 正在 运 
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行进 程 的 优先 级 ， 并 在 必要 时 调用 schedule ()。 这 些 检 查 并 不 是 由 名 字 中 含有 
“sync” 字 符 串 的 宏 进行 的 ， 造 成 的 结果 是 高 优先 级 进程 的 执行 稍 有 延迟 。 

. wake_up_locked 宏 和 wake_up 宏 相 类 似 , 仅 有 的 不 同 是 当 wait_dqueue_headq 上 
中 的 自 旋 锁 已 经 被 持 有 时 要 调用 wake_up_locked。 


例如 ，wake_up 宏 等 价 于 下 列 代码 片段 ; 


voida wake up(lwalit_queue head 七 *q) 
{ 

struct list _ head *tmp; 

wait_ queue_t *curr; 


list for _ each(tmp, &q->task list) 1 
curr = list_entryltmp, wait queue_t, task list}); 
If (curr->func{curr, TASK_INTERRUPTIBLE|TASK UNINTERRUPTIBLE, 
0, NULL) && curr->flags) 
break; 


} 


list_for_each 宏 扫描 双向 链表 gq->task_list 中 的 所 有 项 , 即 等 待 队 列 中 的 所 有 进程 。 
对 每 一 项 ，1ist_entry 宏 都 计算 wait_queue_t 变量 对 应 的 地 址 。 这 个 变量 的 func 字 
段 存放 唤醒 函数 的 地 址 ， 它 试图 唤醒 由 等 待 队列 元 素 的 task 字段 标识 的 进程 。 如 果 一 
个 进程 已 经 被 有 效 地 唤醒 (函数 返回 1) 并 且 进 程 是 互 斥 的 (curr->flags 等 于 1)， 循 
环 结束 。 因 为 所 有 的 非 互 斥 进程 总 是 在 双向 链表 的 开始 位 置 , 而 所 有 的 互 斥 进程 在 双向 
链表 的 尾部 , 所 以 函数 总 是 先 唤 醒 非 互 斥 进程 然后 再 唤醒 互 斥 进程 如果 有 进程 存在 的 
话 ( 注 4)。 


进程 资源 限制 
每 个 进程 都 有 一 组 相关 的 资源 限制 (resource limit)， 限 制 指定 了 进程 能 使 用 的 系统 资 
源 数量 。 这 些 限制 避免 用 户 过 分 使 用 系统 资源 (CPU、 磁 盘 空 间 等 )。Linux 承认 以 下 表 
3-7 中 的 资源 限制 。 


对 当前 进程 的 资源 限制 存放 在 current->signal->rlim 字 段 ， 即 进程 的 信号 描述 符 的 
一 个 字段 (参见 第 十 一 章 “ 与 信号 相关 的 数据 结构 ”一 节 )。 该 字段 是 类 型 为 rl1imit 结 
构 的 数组 , 每 个 资源 限制 对 应 一 个 元 素 : 

struct rlimit f 


unsigned long rlim_ cur; 
unsigned long rlim max:; 


注 4: 顺便 提 一 下 ， 一 个 等 待 队列 中 同时 包含 互 斥 进 程 和 非 互 斥 进程 的 情况 是 非常 罕见 的 。 
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表 3-7: 资源 限制 
字段 名 


RLIMIT_AS 


RLIMIT_CORE 


RLIMIT_CPU 


RLIMIT_ DATA 


RLIMIT_FSIZE 


RLIMIT_ LOCKS 


RLIMIT_MEMLOCK 


RLIMIT MSGQUEUE 


RLIMIT_NOFILE 


RLIMIT_NPROC 


RLIMIT_RSS 
RLIMIT_SIGPENDING 
RLIMIT_ _ STACK 


说 明 

进程 地 址 空间 的 最 大 数 (以 字 节 为 单位 )。 当 进程 使 用 
malloc() 或 相关 函数 扩大 它 的 地 址 空间 时 ， 内 核 检 查 这 个 
值 (参见 第 九 章 “ 进 程 的 地 址 空间 ”一 节 ) 

内 存 信息 转 储 文件 的 大 小 (以 字 节 为 单位 )。 当 一 个 进程 异常 
终止 时 ， 内 核 在 进程 的 当前 目录 下 创建 内 存 信息 转 储 文件 之 
前 检查 这 个 值 (参见 第 十 一 章 的 “传递 信号 之 前 所 执行 的 操 
作 "一 节 ) 。 如 果 这 个 限制 为 0, 那么 , 内 核 就 不 创建 这 个 文件 
进程 使 用 CPU 的 最 长 时 间 (以 秒 为 单位 )。 如 果 进 程 超 过 了 
这 个 限制 , 内 核 就 向 它 发 一 个 SIGXCPU 信 号 , 然后 如 果 进 程 
还 不 终止 ,再 发 一 个 SIGKILL 信号 (参见 第 十 一 章 ) 

堆 大 小 的 最 大 值 (以 字 节 为 单位 )。 在 扩充 进程 的 堆 之 前 ， 内 
核 检查 这 个 值 (参见 第 九 章 中 “ 堆 的 管理 ”一 节 ) 
文件 大 小 的 最 大 值 (以 字 节 为 单位 )。 如 黑 进 程 试 图 把 一 个 文 
件 的 大 小 扩充 到 大 于 这 个 值 , 内 核 就 给 这 个 进程 发 SIGXFSz 
信号 

文件 锁 的 最 大 值 (目前 是 非 强制 的 ) 

非 交 换 内 存 的 最 大 值 (以 字 节 为 单位 )。 当 进程 试图 通过 
mlock() 或 mlockall() 系 统 调 用 锁 住 一 个 页 框 时 ， 内 核 
检查 这 个 值 (参见 第 九 章 “分 配 线 性 地 址 区 间 ” 一 节 ) 
POSIX 消息 队列 中 的 最 大 字 节 数 ( 参 见 第 十 九 章 “POSIX 消 
息 队 列 ” 一 节 ) 


打开 文件 描述 符 的 最 大 数 。 当 打开 一 个 新 文件 或 复制 一 个 文 
件 描 述 符 时 ， 内 核 检 查 这 个 值 (参见 第 十 二 章 ) 


用 户 能 拥有 的 进程 最 大 数 (参见 本 章 “clone(), fork() 及 
vfork() 系统 调用 ”一 节 ) 


进程 所 拥有 的 页 框 最 大 数 (目前 是 非 强制 的 ) 
进程 挂 起 信号 的 最 大 数 (参见 第 十 一 章 ) 

栈 大 小 的 最 大 值 ( 以 字 节 为 单位 )。 内 核 在 扩充 进程 的 用 户 态 
堆栈 之 前 检查 这 个 值 (参见 第 九 章 “ 异 常 处 理 ” 一 节 ) 


rlim_cur 字段 是 资源 的 当前 资源 限制 。 例 如 ，current->signal->rlim[RLIMIT_CPU]. 
rlim_ cur 表示 正 运 行进 程 所 占用 CPU 时 间 的 当前 限制 。 
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rlim_max 字段 是 资源 限制 所 允许 的 最 大 值 。 利 用 getrlimit () 和 setrlimit () 系 统 
调用 , 用 户 总 能 把 一 些 资 源 的 rlim_cur 限 制 增加 到 rl1im_max。 然而, 只 有 超级 用 户 
(或 更 确切 地 说 ， 具 有 CAP_SYS_RESOURCE 权能 的 用 户 ) 才能 改变 rlim_max 字段 , 或 
把 rlim_cur 字段 设置 成 大 于 相应 rl1im_max 字段 的 一 个 值 。 


大 多 数 资 源 限制 包含 值 RLIMIT_INFINITY(0xffffffff)， 它 意味 着 没有 对 相应 的 资 
源 施 加 用 户 限制 (当然 由 于 内 核 设计 上 的 限制 , 可 用 RAM、 可 用 磁盘 空间 等 ,实际 的 
限制 还 是 存在 的 ) 。 然 而 ， 系 统管 理 员 可 以 给 一 些 资 源 选 择 施 加 更 强 的 限制 。 只 要 用 户 
注册 进 系统 , 内 核 就 创建 一 个 由 超级 用 户 拥有 的 进程 , 超级 用 户 能 调用 setrlimit() 以 
减少 一 个 资源 rlim_max 和 rlim_cur 字 段 的 值 。 随 后 , 同一 进程 执行 一 个 login shell， 
该 进程 就 变 为 由 用 户 拥有 。 由 用 户 创建 的 每 个 新 进程 都 继承 其 父 进 程 r1im 数 组 的 内 容 ， 
因此 ， 用 户 不 能 忽略 系统 强加 的 限制 。 


进程 切换 

为 了 控制 进程 的 执行 , 内核 必须 有 能 力 挂 起 正在 CPU 上 运行 的 进程 ,并 恢复 以 前 挂 起 的 
某 个 进程 的 执行 。 这 种 行为 被 称 为 进程 切换 (process switch)、 任 务 切换 (task switch) 
或 上 下 文 切换 (context switch)。 下 面 几 节 描 述 在 Linux 中 进行 进程 切换 的 主要 内 容 。 


硬件 上 下 文 


尽管 每 个 进程 可 以 拥有 属于 自己 的 地 址 空间 ,但 所 有 进程 必须 共享 CPU 寄存 器 。 因 此 ， 
在 恢复 一 个 进程 的 执行 之 前 , 内 核 必须 确保 每 个 寄存 器 装 入 了 挂 起 进程 时 的 值 。 


进程 恢复 执行 前 必须 装 和 人 寄存 器 的 一 组 数据 称 为 硬件 上 下 文 (hardware context)。 硬件 
上 下 文 是 进程 可 执行 上 下 文 的 一 个 子 集 ,因为 可 执行 上 下 文 包含 进程 执行 时 需要 的 所 有 
信息 。 在 Linux 中 ,进程 硬件 上 下 文 的 一 部 分 存 帮 在 TSS 段 ， 而 剩余 部 分 存放 在 内 核 态 
堆栈 中 。 


在 下 面 的 描述 中 ， 我 们 假定 用 prev 局 部 变量 表示 切换 出 的 进程 的 描述 符 ，next 表示 
切换 进 的 进程 的 描述 符 。 因 此 ,我们 把 进程 切换 定义 为 这 样 的 行为 : 保存 Prev 硬件 上 
下 文 ， 用 next 硬件 上 下 文 代替 prev。 因 为 进程 切换 经 常 发生 ， 因 此 减少 保存 和 装 入 
硬件 上 下 文 所 花费 的 时 间 是 非常 重要 的 。 


早期 的 Linux 版 本 利用 80x86 体系 结构 所 提供 的 硬件 支持 ， 并 通过 far jmp 指令 ( 注 
5) 跳 到 next 进程 TSS 描述 符 的 选择 符 来 执行 进程 切换 。 当 执行 这 条 指令 时 ，CPU 通 


注 $: far jmp 指 今 既 修 改 cs 寄存 器 ， 也 修改 eip 寄 站 器 ， 而 简单 的 jmp 指令 只 修改 eip 
寄存 器 。 
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过 自动 保存 原来 的 硬件 上 下 文 , 装 入 新 的 硬件 上 下 文 来 执行 硬件 上 下 文 切换 。 但 基于 以 
下 原因 ，Linux 2.6 使 用 软件 执行 进程 切换 : 


。 ”通过 一 组 mov 指令 逐步 执行 切换 ， 这 样 能 较 好 地 控制 所 装 和 人 数据 的 合法 性 。 尤 其 
是 , 这 使 检查 as 和 es 段 寄 存 器 的 值 成 为 可 能 , 这 些 值 有 可 能 被 恶意 用 户 伪造 。 当 
用 单独 的 far jmp 指令 时 ， 不 可 能 进行 这 类 检查 。 


。 ”上 旧 方 法 和 新 方法 所 需 时 间 大 臻 相同。 然而 ,尽管 当前 的 切换 代码 还 有 改进 的 余地 ， 
却 不 能 对 硬件 上 下 文 切 换 进 行 优化 。 


进程 切换 只 发 生 在 内 核 态 。 在 执行 进程 切换 之 前 , 用 户 态 进程 使 用 的 所 有 寄存 器 内 容 都 
已 保存 在 内 核 态 堆栈 上 (参见 第 四 章 ), 这 也 包括 ss 和 esp 这 对 寄存 器 的 内 容 (存储 用 
户 态 堆栈 指针 的 地 址 )。 


任务 状态 段 


80x86 体系 结构 包括 了 一 个 特殊 的 段 类 型 ， 叫 任务 状态 段 (Task State Segment ，TSS ) 
来 存放 硬件 上 下 文 。 尽 管 Linux 并 不 使 用 硬件 上 下 文 切 换 , 但 是 强制 它 为 系统 中 每 个 不 
同 的 CPU 创建 一 个 TSS。 这 样 做 的 两 个 主要 理由 为 : 


。 ” 当 80x86 的 一 个 CPU 从 用 户 态 切换 到 内 核 态 时 ， 它 就 从 TSS 中 获取 内 核 态 堆栈 的 
地 址 (参见 第 四 章 “ 中 断 和 异常 的 硬件 处 理 ” 一 节 和 第 十 章 “ 通 过 sysenter 指令 发 
送 系 统 调用 ”一 市 )。 

。 ” 当 用 户 态 进程 试图 通过 in 或 out 指 令 访问 一 个 WO 端口 时 , CPU 需要 访问 存放 在 TSS 
中 的 IO 许可 权 位 图 (Permission Bitmap) 以 检查 该 进程 是 否 有 访问 端口 的 权力 。 


更 确切 地 说 ， 当 进程 在 用 户 态 下 执行 in 或 out 指令 时 ， 控 制 单元 执行 下 列 操作 


1] ， 它 检查 eflags 寄存 器 中 的 2 位 IOPL 字 段 。 如果 该 字段 值 为 3, 控制 单元 就 执 
行 VO 指令。 否则， 执行 下 一 个 检查 。 


2.， 访问 tr 寄存 器 以 确定 当前 的 TSS 和 相应 的 WO 许可 权 位 图 。 


3. 检查 LO 指令 中 指定 的 WO 端口 在 WO 许可 权 位 图 中 对 应 的 位 。 如 果 该 位 清 0， 
这 条 IO 指令 就 执行 ， 否 则 控制 单元 产生 一 个 “General protection” 异 常 。 


tss_struct 结 构 描 述 TSS 的 格式 。 正 如 第 二 章 所 提 到 的 ，init_tss 数组 为 系统 上 每 个 
不 同 的 CPU 存放 一 个 TSS。 在 每 次 进程 切换 时 , 内 核 都 更 新 TSS 的 革 些 字段 以 便 相 应 的 
CPU 控制 单元 可 以 安全 地 检索 到 它 需 要 的 信息 。 因 此 ，TSS 反映 了 CPU 上 的 当前 进程 
的 特权 级 ， 但 不 必 为 没有 在 运行 的 进程 保留 TSS。 
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每 个 TSS 有 它 自 己 8 字 节 的 任务 状态 段 描 述 符 (Task State Segment Descriptor, TSSD)。 
这 个 描述 符 包 括 指向 TSS 起 始 地 址 的 32 位 Base 字 段 ，20 位 Limit 字 7 段 。TSSD 的 S 标 
志 位 被 清 0， 以 表示 相应 的 TSS 是 系统 段 的 事实 (参见 第 二 章 “ 段 描述 符 ” 一 节 )。 


Type 字段 置 为 11 或 9 以 表示 这 个 段 实 际 上 是 一 个 TSS$。 在 Intel 的 原始 设计 中 ， 系统 中 
的 每 个 进程 都 应 当 指 向 自己 的 TSS，Type 字段 的 第 二 个 有 效 位 叫做 Busy 位 ， 如果 进 程 
正 由 CPU 执行 ， 则 该 位 置 1， 否 则 置 0。 在 Linux 的 设计 中 ， 每 个 CPU 只 有 一 个 TSS， 
因此 ，Busy 位 总 置 为 1。 


由 Linux 创建 的 TSSD 存放 在 全 局 描述 符 表 (GDT) 中 , GDT 的 基地 址 存放 在 每 个 CPU 
的 gadtr 寄存 器 中 。 每 个 CPU 的 tr 寄存 器 包含 相应 TSS 的 TSSD 选择 符 ， 也 包含 了 两 
个 隐藏 的 非 编 程 字段 : TSSD 的 Base 字 段 和 Limit 字段 ,这样 , 处 理 器 就 能 直接 对 TSS 
寻 址 而 不 用 从 GDT 中 检索 TSS 的 地 址 。 


thread 字段 
在 每 次 进程 切换 时 , 被 替换 进程 的 硬件 上 下 文 必须 保存 在 别处 。 不 能 像 Intel 原 始 设 计 那 
样 把 它 保 存在 TSS 中 ， 因 为 Linux 为 每 个 处 理 颖 而 不 是 为 每 个 进程 使 用 TSS。 


因此 , 每 个 进程 描述 符 包 含 一 个 类 型 为 threaqd_struct 的 thread 字 段 ， 只 要 进程 被 切 
换 出 去 ， 内核 就 把 其 硬件 上 下 文保 存在 这 个 结构 中 。 随 后 我 们 会 看 到 , 这 个 数据 结构 包 
含 的 字段 涉及 大 部 分 CPU 寄存 器 ,但 不 包括 诸如 eax、 ebx 等 等 这 些 通用 寄存 器 ， 它 
们 的 值 保留 在 内 核 堆 栈 中 。 


执行 进程 切换 
进程 切换 可 能 只 发 生 在 精心 定义 的 点 : schedule () 函数 (在 第 七 章 会 用 很 长 的 篇 幅 来 
讨论 )。 这 里 ， 我 们 仅 关 注 内 核 如 何 执 行 一 个 进程 切换 。 


从 本 质 上 说 ， 每 个 进程 切换 由 两 步 组 成 : 


1. 切换 页 全 局 目录 以 安装 一 个 新 的 地 址 空间 ， 我 们 将 在 第 九 章 描述 这 一 步 。 
2， 切换 内 核 态 堆栈 和 硬件 上 下 文 , 因 为 硬件 上 下 文 提供 了 内 核 执行 新 进程 所 需要 的 所 
有 信息 ， 包 含 CPU 寄存 器 。 


我 们 又 一 次 假定 prev 指向 被 替换 进程 的 描述 符 ， 而 next 指向 被 铀 活 进程 的 描述 符 。 
我 们 在 第 七 章 会 看 到 ，prev 和 next 是 schedule() 函 数 的 局 部 变量 。 
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switch_to 宏 


进程 切换 的 第 二 步 由 switch_to 宏 执行 。 它 是 内 核 中 与 硬件 关系 最 密切 的 例 程 之 一 , 要 
理解 它 到 底 做 了 些 什么 我 们 必须 下 些 功夫 。 


首先 , 该 宏 有 三 个 参数 , 它们 是 Prev,next 和 1asc。 你 可 能 很 容易 猜 到 prev 和 mex 
的 作用 : 它们 仅 是 局 部 变量 prev 和 next 的 占 位 符 ， 即 它们 是 输入 参数 ， 分 别 表示 被 
替换 进程 和 新 进程 描述 符 的 地 址 在 内 存 中 的 位 置 。 


那 第 三 个 参数 1ast 了 呢 ? 在 任何 进程 切换 中 , 涉及 到 三 个 进程 而 不 是 两 个 。 假设 内 核 决 
定 暂 停 进程 A 而 沿 活 进程 B。 在 schedule() 函数 中 ，prev 指 回 A 的 摘 述 符 而 next 
指 同 B 的 换 述 御 。switch_to 宏一 但 使 A 暂 停 ，A 的 执行 流 就 冻结 。 


随后 ， 当 内 核 想 再 次 此 油 活 A， 就 必须 暂停 男 一 个 进程 C (这 通常 不 同 于 B), 于 是 就 要 
用 prev 指 和 同 C 而 next 指向 A 来 执行 男 一 个 switch_to 宏 。 当 A 恢复 它 的 执行 流 时 ， 
就 会 找到 它 原来 的 内 核 栈 ， 于 是 preyv 局 部 变量 还 是 指向 A 的 描述 符 而 next 指向 B 的 
摘 述 竹 。 此 时 ,代表 进程 A 执行 的 内 核 就 失去 了 对 C 的 任何 3 用 。 但 是 , 事实 表明 这 个 
5| 用 对 于 完成 进程 切换 是 很 有 用 的 (更 多 细节 参见 第 七 章 )。 


switch_to 宏 的 最 后 一 个 参数 是 输出 参数 , 它 表 示 宏 把 进程 C 的 描述 特地 址 写 在 内 存 的 
什么 位 置 了 (当然 ， 这 是 在 A 恢复 执行 之 后 完成 的 )。 在 进程 切换 之 前 ， 宏 把 第 一 个 输 
入 参数 prev ( 即 在 A 的 内 核 堆栈 中 分 配 的 prev 局 部 变量 ) 表示 的 变量 的 内 容 存 人 CPU 
的 eax 寄存 器 。 在 完成 进程 切换 ，A 已 经 恢复 执行 时 ， 宏 把 CPU 的 eax 寄存 右 的 内 容 
写 入 由 第 三 个 输出 参数 - 1ast 所 指示 的 A 在 内 存 中 的 位 置 。 因 为 CPU 寄存 器 不 会 
在 切换 后 发 生变 化 ， 所 以 C 的 描述 符 地 址 也 存在 内 存 的 这 个 位 置 。 在 schedule() 执 行 
过 程 中 ， 参 数 1ast 指向 A 的 局 部 变量 prev， 所 以 Erev 被 C 的 地 址 覆盖 。 


图 3-7 显示 了 进程 A,B,C 内 核 堆栈 的 内 容 以 及 eax 寄存 器 的 内 容 。 必 须 注 意 的 是 : 图 
中 显示 的 是 在 被 eax 寄存 器 的 内 容 窗 盖 以 前 的 prev 局 部 变量 的 值 。 





switch_ to(A,B,A) switch_to(C,A,O) 
进程 A 进程 B pros DD sh 
进程 堆栈 preyv=A prev=B | Prev = 人 prev=A 
next=B next = other 人 next 三 大 next=B 用 


eax 寄 仔 辜 











3-7: 通过 一 个 进程 切换 保留 对 进程 的 引用 
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由 于 switch_to 宏 采用 扩展 的 内 联 汇编 语言 编码 , 所 以 可 读 性 比较 差 ; 实际 上 这 上段 代码 
通过 特殊 位 置 记 数 法 使 用 寄存 器 , 而 实际 使 用 的 通用 寄存 堪 由 编译 绒 自 由 选择 。 我 们 将 
采用 标准 汇编 语言 而 不 是 麻烦 的 内 联 汇编 语言 来 描述 switch_to 宏 在 80x86 微 处 理 器 上 
所 完成 的 典型 工作 。 


1. 在 eax 和 edx 寄存 器 中 分 别 保 存 prev 和 next 的 值 : 


mov] prev,%eax 
moOv] next, Sedx 


2. 把 eflags 和 ebp 寄 存 器 的 内 容 保 存在 prev 内 核 栈 中 。 必须 保存 它们 的 原因 是 编 
译 器 认为 在 switch_to 结束 之 前 它们 的 值 应 当 保 持 不 变 。 


pushf1 
pushl YebP 


3， 把 esp 的 内 容 保存 到 prev->thread.esp 中 以 使 该 字段 指 同 prev 内 核 栈 的 栈 顶 : 


moOv] %®esp, 484 ($eax) 


484 (%eax) 操作 数 表示 内 存单 元 的 地 址 为 eax 内容 加 上 484。 


4. 把 next->thread.esp 装 入 esp。 此 时 ,内核 开始 在 next 的 内 核 栈 上 操作 ， 因 此 
这 条 指令 实际 上 完成 了 从 prev 到 next 的 切换 。 由 于 进程 描述 符 的 地 址 和 内 核 栈 
的 地 址 紧 挨 着 (就 像 我 们 在 本 章 前 面 “标识 一 个 进程 ”一 节 所 解释 的 )， 所 以 改变 
内 核 栈 意 味 着 改变 当前 进程 。 


movl 484 (®%edx), ®esp 


5， 把 标记 为 1 的 地 址 (本 节 后 面 所 示 ) 存 人 prev->thread.eip。 当 被 替换 的 进程 
重新 恢复 执行 时 ， 进 程 执行 被 标记 为 1 的 那 条 指令 : 


movl1l S$lf, A480 (Seax) 


6. 宏 把 next->thread.eip 的 值 ( 绝 大 多 数 情况 下 是 一 个 被 标记 为 1 的 地 址 ) 压 
入 next 的 内 核 栈 ; 


Push1l 480 (%edx) 


7.， 跳 到 __switch_to()C 沿 数 ( 见 下 面 ): 


jmp__Sswitch_to 


8. ”这 里 被 进程 B 替换 的 进程 A 再 次 获得 CPU: 它 执 行 一 些 保存 ef1ags 和 ebp 寄存 
器 内 容 的 指令 ， 这 两 条 指令 的 第 一 条 指令 害 标记 为 1。 


]: 
popl Yebp 
popfl 
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注意 这 些 pop 指令 是 怎样 引用 prev 进程 的 内 核 栈 的 。 当 进程 调度 程序 选择 了 
prev 作为 新 进程 在 CPU 上 运行 时 ,将 执行 这 些 指令 。 于 是 ,以 prev 作为 第 二 个 
参数 调用 switch_to。 因 此 ，esp 寄存 器 指 网 Prev 的 内 核 栈 。 


9. 拷贝 eax 寄 存 器 (上 面 步骤 1 中 被 装载 ) 的 内 容 到 switch_to 宏 的 第 三 个 参数 Last 
标识 的 内 存 区 域 中 


movl %Seax, last 


正如 先前 讨论 的 ，eax 寄存 器 指向 刚 被 替换 的 进程 的 描述 符 〈 注 6)。 


Switch_to(0) 函 数 


_ switch_to() 国 数 执行 大 多 数 开 始 于 switch_co() 宏 的 进程 切换 。 这 个 函数 作用 
于 prev_p 和 next_p 参 数 , 这 两 个 参数 表示 前 一 个 进程 和 新 进程 。 这 个 国 数 的 调用 不 
同 于 一 般 函 数 的 调用 ， 因 为 ”switch_to() 从 eax 和 edx 取 参数 prev_p 和 next_p 
(我 们 在 前 面 已 看 到 这 些 参数 就 是 保存 在 那里 ) ， 而 不 像 大 多 数 国 数 一 样 从 栈 中 取 参 数 。 
为 了 强迫 函数 从 寄存 器 取 它 的 参数 , 内 核 利 用 __attribute__ 和 regparm 关 键 字 , 这 
两 个 关键 字 是 C 语言 非 标准 的 扩展 名 ， 由 gcc 编译 程序 实现 。 在 include /asm-i386 / 
system.h 头 文件 中 ，__ switch_ to() 国 数 的 声明 如 下 : 
__Switch_ tol(struct task_struct *prev_p, 


struct task_struct *next_p) 
__attribute__ (regparm(3));) 


函数 执行 的 步骤 如 下 ;. 


1. 执行 由 __unlazy_fpu() 宏 产生 的 代码 (参见 本 章 稍 后 “保存 和 加 载 FPU、MMX 
及 XMM 寄存 器 ”一 节 ), 以 有 选择 地 保存 prev_p 进程 的 FEPU、MMX 及 XMM 寄 
存 器 的 内 容 。 

__unlazy_fpu (prev_p); 

2. 执行 smp_processor_id() 宏 获得 本 地 (local) CPU 的 下 标 ,， 即 执行 代码 的 CPU。 该 
宏 从 当前 进程 的 thread_info 结 构 的 cpu 字 段 获得 下 标 并 将 它 保存 到 cpu 局 部 变量 。 

3. 把 next_p->thread.esp0 装 人 对 应 于 本 地 CPU 的 TSS 的 esp0 字段 ; 我 们 将 在 第 
十 章 的 “通过 sysenter 指 令 发 生 系统 调用 ”一 节 看 到 ， 以 后 任何 由 sysenter 汇 编 
指令 产生 的 从 用 户 态 到 内 核 态 的 特权 级 转换 将 把 这 个 地 址 拷贝 到 esp 寄存 器 中 : 


init_tss[cpuj .esp0 = next_p->thread.espo; 





注 6: 正如 本 节 前 面 氢 述 的 当前 执行 的 schedule() 函数 重新 使 用 了 Prev 局 部 变量 ,于 
是 汇编 语言 指令 就 是 : mov1 8%eax,Prev。 
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4. ”把 next_p 进 程 使 用 的 线程 局 部 存储 (TLS ) 段 装 入 本 地 CPU 的 全 局 描述 符 表 ，, 三 
个 段 选 择 符 保存 在 进程 描述 符 内 的 tls_array 数 组 中 (参见 第 二 章 的 “Linux 中 的 
分 篡 ”= 市); 


cpu_gdt_table[cpul[6] = next_p->thread.tls array[0]: 
cpu_gdt_table[lcpu][7] = next_p->thread.tls array [1]:; 
cpu_gdt_table[cpu] [8] = next_p->thread.tls_array{(2]; 


5. 把 fs 和 gs 段 寄 存 器 的 内 容 分 别 存 放 在 prev-P->thread.fs 和 prev-P->thread.gs 
中 ， 对 应 的 汇编 语言 指令 是 : 


movl %fs, 40(%esi) 
movl %gs, 44(%esi) 


esi 寄存 器 指向 prev_p->thread 结 构 。 


6. 如 果 fs 或 gs 段 寄存 器 已 经 被 prev_p 或 next_p 进程 中 的 任意 一 个 使 用 (也 就 
是 说 如 果 它 们 有 一 个 非 0 的 值 ) ， 则 将 next_p 进 程 的 threadq_struct 描述 符 中 保 
存 的 值 装 入 这 些 寄存 器 中 。 这 一 步 在 逻辑 上 补充 了 前 一 步 中 执行 的 操作 。 主 要 的 汇 
编 语言 指令 如 下 : 


mov] 40'(%ebx),®fs 
movi 44(%ebx}) ,%®gs 


ebx 寄存器 指向 next_p->thread 结 构 。 代 码 实 际 上 更 复杂 , 因为 当 它 检测 到 一 个 
无 效 的 段 寄 存 器 值 时 , CPU 可 能 产生 一 个 异常 。 代 码 采 用 一 种 “修正 (fix-up)” 途 
径 来 考虑 这 种 可 能 性 (参见 第 十 章 “ 动 态 地 址 检查 : 修正 代码 ”一 节 )。 

7. 用 next_p->threadq.dqebugreg 数 组 的 内 容 装 载 ar0，…，dqr7 中 的 6 个 调试 寄存 
器 ( 注 7)。 只 有 在 next_p 被 挂 起 时 正在 使 用 调试 寄存 器 (也 就 是 说 ，next_p 
->thread.debugreg[7] 字 段 不 为 0), 这 种 操作 才能 进行 。 这 些 寄存 器 不 需要 被 保 
存 ， 因 为 只 有 当 一 个 调试 器 想 要 监控 prev 时 prev_p->thread.debugreg 才 会 被 
修改 。 


if (next_Pp->thread.debugreg [7]) 1{ 
loaddebug (knext_p->thread, 0); 
loaddebug (gknext_p->thread, 1); 
loaddebug (&next_p->thread, 2):; 
loaddebug (&next_p->thread, 3); 
/* 没有 4 和 5*/ 
loaddebug (gknext_p->thread, 6):; 
loaddebug (gnext_p->thread, 7); 


注 7: 80 x 86 调 试 寄 存 器 允许 进程 被 硬件 监控 。 最 多 可 定义 4 个 断 点 区 域 。 一 个 被 监控 的 进程 
只 要 产生 的 一 个 线性 地 址 位 于 个 断 点 区 域 中 之 一 ， 就 会 产生 一 个 异常 。 
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如 果 必 要 ， 更 新 TSS 中 的 LO 位 图 。 当 next_p 或 prev_p 有 其 自己 的 定制 IO 权限 
位 图 时 必须 这 么 做 ; 


if {prev_p->thread.io bitmap_ptr || next_p->thread.io bitmap_ptr) 
handle_io_ bitmap (gtnext_p->thread, &init tss[lcpul}.; 


因为 进程 很 少 修 改 IO 权限 位 图 ,所 以 该 位 图 在 “ 懒 ” 模 式 中 被 处 理 : 当 且 仅 当 一 
个 进程 在 当前 时 间 片 内 实际 访问 WO 端口 时 , 真实 位 图 才 被 拷贝 到 本 地 CPU 的 TSS 
中 。 进 程 的 定制 IO 权限 位 图 被 保存 在 thread_info 结 构 的 ico_bitmap_ptr 字 段 
指向 的 缓冲 区 中 。handle_io_bitmap() 函 数 为 next_p 进程 设置 本 地 CPU 使 用 
的 TSS 的 io_bitmap 字段 如 下 : 


。 ”如果 next_p 进程 不 拥有 自己 的 VO 权限 位 图 , 则 TSS 的 io_bitmap 字 段 被 设 
为 0x8000。 


。 如 果 next_p 进 程 拥 有 自己 的 IO 权限 位 图 , 则 TSS 的 io_bitmap 字 段 被 设 为 
0x9000 。 


TSS 的 io_ bitmap 字 段 应 当 包含 一 个 在 TSS 中 的 偏 移 量 ， 其 中 存放 实际 位 图 。 无 论 何 
时 用 户 态 进 程 试图 访问 一 个 VO 端口 ，0x8000 和 0x9000 指 向 TSS 界 限 之 外 并 将 因此 
引起 “General protection” 异常 (参见 第 四 竟 的 “异常 "一 节 )。do_general protection() 
异常 处 理 程 序 将 检查 保存 在 io_bitmap 字段 的 值 ， 如 果 是 0x8000， 函 数 发 送 一 个 
SIGSEGYV 信号 给 用 户 态 进程 ， 如 果 是 0x9000， 函 数 把 进程 位 图 (由 thread_info 结 
构 中 的 io_bitmap_ptr 字 段 指 示 ) 拷贝 到 本 地 CPU 的 TSS 中 , 把 io_bitmap 字段 设 
为 实际 位 图 的 偏 移 (104) ， 并 强制 再 一 次 执行 有 缺陷 的 汇编 语言 指令 。 

终止 。_ _switch_to()C 函 数 通 过 使 用 下 列 声明 结束 : 


return prev_p; 


由 编译 器 产生 的 相应 汇编 语言 指令 是 : 


moOVv1 %Sedi,$Seax 
ret 


prev_p 参数 (现在 在 edi 中 ) 被 拷贝 到 eax， 因 为 缺 省 情况 下 任何 C 函数 的 返 
回 值 被 传递 给 eax 寄存器。 注意 eax 的 值 因 此 在 调用 __switch_to() 的 过 程 中 被 
保护 起 来 ; 这 非常 重要 ， 因 为 调用 switch_to 宏 时 会 假定 eax 总 是 用 来 存放 将 被 
替换 的 进程 描述 符 的 地 址 。 

汇编 语言 指令 ret 把 栈 顶 保存 的 返回 地 址 装 入 eip 程 序 计数 器 。 不 过 , 通过 简单 地 
跳 转 到 __switch_to() 函数 来 调用 该 函数 。 因 此, ret 汇编 指令 在 栈 中 找到 标号 为 
1 的 指令 的 地 址 ， 其 中 标号 为 1 的 地 址 是 由 switch_to() 宏 推 和 栈 中 的 。 如 果 因 为 
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next_p 第 一 次 执行 而 以 前 从 未 被 挂 起 ，__switch_to() 就 找到 ret_from_fork 1() 
函数 的 起 始 地 址 (参见 本 章 后 面 “clone()，forkO0 和 vforkO 系 统 调用 一 节 ”) 。 


保存 和 加 载 FPU、MMX 及 XMM 寄存 器 


从 Intel 80486DX 开始 ， 算 术 浮 点 单元 (floating-point unit ，FPU) 已 被 集成 到 CPU 
中 。 数 学 协 处 理 这 个 名 词 使 人 想起 使 用 昂贵 的 专用 心 片 执行 浮 点 计算 的 风月。 然而 ， 为 
了 维持 与 旧 模 式 的 兼容 , 学 点 算术 函数 用 ESCAPE 指令 来 执行 , 这 个 指令 的 一 些 前 组 字 
节 在 0xd8 和 0xdf 之 间 。 这 些 指令 作用 于 包含 在 CPU 中 的 浮 点 寄存 器 集 。 显 然 ， 如 果 
一 个 进程 正在 使 用 ESCAPE 指令 , 那么 , 浮上 后 寄存 器 的 内 容 就 属于 它 的 硬件 上 下 文 , 并 
且 应 该 被 保存 。 


在 最 近 的 Pentium 模 型 中 , Intel 在 它 的 微 处 理 器 中 引入 一 个 新 的 汇编 指令 集 , 叫做 MMX 
指令 ， 用 来 加 速 多 媒体 应 用 程序 的 执行 。MMX 指令 作用 于 FPU 的 浮 点 寄存 器 。 选 择 这 
种 体系 结构 的 明显 缺点 是 编程 者 不 能 把 浮 点 指令 与 MMX 指令 混在 一 起 使 用 。 优 点 是 操 
作 系 统 设计 者 能 忽视 新 指令 集 , 因 为 保存 浮 点 单元 状态 的 任务 切换 代码 可 以 不 加 修改 地 
应 用 到 保存 MMX 状态 。 


MMX 指令 加 速 了 多 媒体 应 用 程序 的 执行 ， 因 为 它们 在 处 理 器 内 部 引入 了 单 指令 多 数据 
(single-instruction multiple-data ，SIMD ) 流水 线 。Pentium III 模型 扩展 了 这 种 SIMD 
能 力 : 它 引 入 SSE 扩展 (Streaming SIMD Extensions)， 该 扩展 为 处 理 包 含 在 8 个 128 
位 寄存 器 (叫做 XMM 寄存 器 ) 的 浮 点 值 增加 了 功能 。 这 样 的 寄存 器 不 与 FPU 和 MMX 
寄存 器 重合 ， 因 此 SSE 和 FPU/MMX 指令 可 以 随意 地 混合 。Pentium 4 模型 指令 还 引入 
另 一 种 特点 : SSE2 扩 展 , 该 扩展 基本 上 是 SSE 的 一 个 扩展 ， 支 持 高 精度 浮 点 值 。SSE2 
与 SSE 使 用 同一 XMM 寄存 器 集 。 


80x86 微 处 理 器 并 不 在 TSS 中 自动 保存 FPU、MMX 和 XMM 寄存器。 不 过 ， 它们 包含 
某 种 硬件 支持 ， 能 在 需要 时 保存 这 些 寄存 器 的 值 。 硬 件 支 持 由 cr0 寄存 器 中 的 一 个 TS 
(Task-Switching) 标志 组 成 ， 遵 循 以 下 规则 : 


。 ”每 当 执行 硬件 上 下 文 切换 上 时， 设置 TS 标志 。 


。 ”每 当 TS 标 志 被 设置 时 执行 ESCAPE、MMX、SSE 或 SSE2 指 令 , 控制 单元 就 产生 
一 个 “Device not available” 异 常 (参见 第 四 章 )。 


TS 标志 使 得 内 核 只 有 在 真正 需要 时 才 保 存 和 恢复 FPU、MMX 和 XMM 寄存器。 为 了 说 
明 它 如 何 工 作 , 让 我 们 假设 进程 A 使 用 数学 协 处 理 器 。 当 发 生 上 下 文 切换 时 , 内 核 置 TS 
标志 并 把 浮 点 寄存 器 保存 在 进程 A 的 TSS 中 。 如 果 新 进程 B 不 利用 协 处 理 器 , 内 核 就 不 
必 恢 复 浮 点 寄存 器 的 内 容 。 但 是 ， 只 要 B 打算 执行 ESCAPE 或 MMX 指令 ，CPU 就 产生 








116 第 三 章 


一 个 “Device not available” 异 常 ， 并 且 相 应 的 异常 处 理 程序 用 保存 在 进程 B 中 的 TSS 
的 值 装载 六 点 寄存 器 。 


现在 , 让 我 们 描述 为 处 理 FPU、MMX 和 XMM 寄存 器 的 选择 性 装 入 而 引入 的 数据 结构 。 
它们 存放 在 进程 描述 符 的 thread.i387 子 字段 中 , 其 格式 由 i387_union 联 合体 描述 : 


union i387 union i 


struct 1387_fsave_struct fsave; 
struct 1387 fxsave struct fxsave; 
struct 1387 soft struct soft:; 


}; 


正如 你 看 到 的 ， 这 个 字段 只 可 以 存放 三 种 不 同 数据 结构 中 的 一 种 。i387_soft_struct 
结构 由 无 数学 协 处 理 器 的 CPU 模型 使 用 , Linux 内 核 通过 软件 模拟 协 处 理 器 来 支持 这 些 
老式 心 片 。 不 过 , 我 们 不 打算 进一步 讨论 这 种 遗留 问题 。i387_fsave_struct 结 构 由 具 
有 数学 协 处 理 器 、 也 可 能 有 MMX 单元 的 CPU 模型 使 用 。 最 后 ，i387_fxsave_struct 
结构 由 具有 SSE 和 SSE2 扩展 功能 的 CPU 模型 使 用 。 


进程 描述 符 包 含 两 个 附加 的 标志 : 


se 包含 在 thread_info 描述 符 的 status 字 7 段 中 的 TS_USEDFPU 标 志 。 它 表 示 进 
程 在 当前 执行 的 过 程 中 是 否 使 用 过 FPU、MMX 和 XMM 寄存 器 。 


. 包含 在 task_struct 撕 述 符 的 fliags 字段 中 的 PF_USED_MATH 标 志 。 这 个 标志 
表示 thread .i387 子 字段 的 内 容 是 否 有 意义 。 该 标志 在 两 种 情况 下 被 清 0 (没有 


一 当 进 程 调用 execve() 系 统 调用 (参见 第 二 十 章 ) 开始 执行 一 个 新 程序 时 。 
为 控制 权 将 不 下 返回 到 前 一 个 程序 ,所 以 当前 存放 在 thread.i387 中 的 数据 也 
不 骨 使 用 。 

一 当 在 用 户 态 下 执行 一 个 程序 的 进程 开始 执行 一 个 信号 处 理 程序 时 (参见 第 十 一 
章 )。 因为 信号 处 理 程 序 与 程序 的 执行 流 是 异步 的 , 因此 , 浮 点 寄存 器 对 信号 处 
理 程 序 来 说 可 能 是 毫 无 意义 的 。 不 过 ， 内 核 开始 执 行 信号 处 理 程序 之 前 在 
thread.i387 中 保存 浮 点 寄存 器 ， 处理 程序 结束 以 后 恢复 它们 。 因 此 , 信号 处 
理 程序 可 以 使 用 数学 协 处 理 右 。 


保存 FPU 寄存 器 


如 前 所 述 ，__switch_to() 了 函数 把 被 替换 进程 p r ev 的 描述 符 作为 参数 传递 给 
__unlazy_fpu 宏 ,并 执行 该 宏 。 这 个 宏 检 查 prev 的 TS_USEDFPU 标 志 值 。 如 果 该 标志 被 设 
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置 ， 说 明 prev 在 这 次 执行 中 使 用 了 FPU、MMX、SSE 或 SSE2 指令 ， 因此 内 核 必须 保存 
相关 的 硬件 上 下 文 : 


If (prev->thread info->status & TS_USEDFPU) 
Save_init_ fpul{(prev); 


save_init_fpu() 函数 依次 执行 下 列 操作 ，: 


1]. 把 FPU 寄存 器 的 内 容 转 储 到 prev 进程 描述 符 中 , 然后 重新 初始 化 FPU。 如 果 CPU 
使 用 SSE/SSE2 扩 展 , 则 还 应 该 转 储 XMM 寄存 器 的 内 容 , 并 重新 初始 化 SSE/SSE2 
单元 。 一 对 功能 强大 的 代入 式 汇 编 语 言 指令 处 理 每 件 事 情 ， 如 果 CPU 使 用 SSE/ 
SSE2 扩展 ， 则 : 


asm volatilel(l "fxsave $%0 ; fnclex" 
: "=m" {tsk->thread.1387.fxsave) ) ， 


否则 : 


asm volatilel(l "fnsave $0 ; fwait" 
: "=m" (tsk->thread.1387.fsave) );， 


2.、 重 置 prev 和 的 TS_USEDFPU 标志 : 


prev->thread_ info->status &= ~TS_USEDFPU; 


3. 用 stts() 宏 设置 cr0 的 TS 标志 ， 实 际 上 ,该 宏 产 生 下 面 的 汇编 语言 指令 : 


mmOV] Scr0O, Yeax 
orl $8,%eax 
movl] Seax, $®ScrO 


装载 FPU 寄存 器 


当 next 进程 刚 恢复 执行 时 ， 浮 点 寄存 器 的 内 容 还 没有 被 恢复 ， 不 过 ，cr0 的 TS 标志 
位 已 由 _ _unlazy_fpu() 设 置 。 因 此 ，next 进程 第 一 次 试图 执行 ESCAPE、MMX 或 
SSE/SSE2 指令 上 时， 控制 单元 产生 一 个 “Device not available” 异 常 ， 内 核 (更 确切 地 
说 , 由 异常 调用 的 异常 处 理 程序 ) 运行 math_state_restore () 国 数 。 处 理 程 序 把 next 
进程 当 作 current 进程 。 


void math state restorel) 
{ 
asm volatiie ("clts"}; /* clear the TS flag of CrO */ 
if (!(current->flags & PF_USED MATH)) 
init_ fpul(current).; 
restore_fpulcurrent):; 
current->thread.status |= TS_ USEDFPU; 
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这 个 图 数 清 cr0 的 TS 标志， 以 便 进程 以 后 执行 FPU、MMX 或 SSE/SSE2 指令 时 不 再 触 
发 “设备 不 可 用 ”的 异常 。 如 果 thread.i387 子 字段 中 的 内 容 是 无 效 的， 也 就 是 说 ， 如 
果 PF_USED_MATH 标志 等 于 0， 就 调用 jnit_fpu() 重 新 设置 thread.i387 子 字段 ， 并 
把 PF_USED_MATH 标志 的 当前 值 置 为 1。restore_fpu() 国 数 把 保存 在 thread.i387 子 
字段 中 的 适当 值 载 信 FPU 寄 存 器 。 为 此 ,根据 CPU 是 否 支持 SSE/SSE2 扩 展 来 使 用 fxrstor 
或 frstor 汇 编 语 言 指 令 。 最 后 ，math_state_restore() 设 置 TS_USEDFPU 标志 。 


在 内 核 态 使 用 FPU、MMX 和 SSE/SSE2 单 元 


内 核 也 可 以 使 用 FPU、MMX 和 SSE/SSE2 单元 。 当 然 ， 这 样 做 的 时 候 ， 应 该 避免 干扰 
用 户 态 进程 所 进行 的 任何 计算 。 因 此 : 


。 ”在 使 用 协 处 理 器 之 前 ,如果 用 户 坊 进 程 使 用 了 FPU (TS_USEDFPU 标 志 ) ,内核 必 
须 调 用 kernel_fpu_begin(), 其 本 质 就 是 调用 save_init_fpu() 来 保存 寄存 器 的 
内 容 ， 然 后 重新 设置 cr0 寄存 器 的 TS 标志 。 


。 ”在 使 用 完 协 处 理 器 之 后 ， 内 核 必须 调用 kernel_fpu_end() 设 置 cr0 寄存 器 的 TS 


稍 后 ， 当 用 户 态 进程 执行 协 处理 器 指令 时 ，math_state_restore() 国 数 将 恢复 寄存 器 
的 内 容 (就 像 处 理 进程 切换 那样 ) 。 


但 是 ， 应 该 注意 ， 当 前 用 户 态 进程 正在 使 用 协 处 理 器 时 ，kernel_fpu_begin() 的 执行 
有 时间 相当 长 ， 以 至 于 无 法 通过 使 用 FPU、 MMX 或 SSE/SSE2 单 元 达到 加 速 的 目的 。 实 
际 上 ,内 核 只 在 有 限 的 场合 使 用 FPU、 MMX 或 SSE/SSE2 单元， 典型 的 情况 有 : 当 移 
动 或 清除 大 内 存 区 字段 时 ， 或 者 当 计 算 校 验 和 函数 时 。 


创建 进程 


Unix 操作 系统 紧 紧 依赖 进程 创建 来 满足 用 户 的 需求 。 例 如 ， 只 要 用 户 输 入 一 条 命令 ， 
shell 进程 就 创建 一 个 新 进程 ， 新 进程 执行 shell 的 另 一 个 拷贝 。 


传统 的 Unix 操作 系统 以 统一 的 方式 对 待 所 有 的 进程 : 子 进程 复制 父 进程 所 拥有 的 资源 。 
这 种 方法 使 进程 的 创建 非常 慢 且 效率 低 ， 因 为 子 进程 需要 拷贝 父 进 程 的 整个 地 址 空间 。 
实际 上 , 子 进程 几乎 不 必 读 或 修改 父 进程 拥有 的 所 有 资源 , 在 很 多 情况 下 , 子 进程 立即 
调用 execve () ， 并 清除 父 进程 仔细 拷贝 过 来 的 地 址 空间 。 


现代 Unix 内 核 通 过 引入 三 种 不 同 的 机 制 解决 了 这 个 问题 : 
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。 ” 写 时 复制 技术 允许 父子 进程 读 相同 的 物理 页 。 只 要 两 者 中 有 一 个 试图 写 一 个 物理 
页 , 内 核 就 把 这 个 页 的 内 容 拷贝 到 一 个 新 的 物理 页 , 并 把 这 个 新 的 物理 页 分 配给 正 
在 写 的 进程 。 第 九 章 将 全 面 地 解释 这 种 技术 在 Linux 中 的 实现 。 

。 ” 轻 量 级 进程 允许 父子 进程 共享 每 进程 在 内 核 的 很 多 数据 结构 , 如 页 表 (也 就 是 整个 
用 户 态 地 址 空间 )、 打 开 文 件 表 及 信号 处 理 。 

。 ”vfork() 系 统 调用 创建 的 进程 能 共享 其 父 进程 的 内 存 地 址 空间 。 为 了 防止 父 进程 重 
写 子 进程 需要 的 数据 ,阻塞 父 进程 的 执行 ,一 直到 子 进程 退出 或 执行 一 个 新 的 程序 
为 止 。 我 们 将 在 下 一 节 了 解 有 关 vfork() 系 统 调 用 更 多 的 知识 。 


clone()、 fork() 及 vfork() 系 统 调用 
在 Linux 中 ， 轻 量 级 进程 是 由 名 为 clone () 的 函数 创建 的 ， 这 个 国 数 使 用 下 列 参数 : 


fn 
指定 一 个 由 新 进程 执行 的 图 数 。 当 这 个 国 数 返回 时 , 子 进程 终止 。 国 数 返 回 一 个 整 
数 ， 表 示 子 进程 的 退出 代码 。 
arg 
指向 传递 给 fn ( ) 函数 的 数据 。 
flags 
各 种 各 样 的 信息 。 低 字 节 指定 子 进程 结束 时 发 送 到 父 进程 的 信号 代码 ， 通 常 选择 
SIGCHLD 信号 。 剩 余 的 3 个 字 市 给 一 clone 标志 组 用 于 编码 ， 如 表 3-8 所 示 。 
child stack 
表示 把 用 户 态 堆栈 指针 赋 给 子 进程 的 esp 寄存 器 。 调 用 进程 〈 指 调用 clone () 的 
父 进 程 ) 应 该 总 是 为 子 进程 分 配 新 的 堆栈 。 
tls 
表示 线程 局 部 存储 段 (TLS ) 数据 结构 的 地 址 ,该 结构 是 为 新 轻 量 级 进程 定义 的 ( 参 
见 第 二 章 “Linux GDT” 一 闻 )。 只 有 在 CLONE_SETTLS 标志 被 设置 时 才 有 意义 。 
ptid 
表示 父 进程 的 用 户 态 变量 地 址 , 该 父 进 程 具有 与 新 轻 量 级 进程 相同 的 PID。 只 有 在 
CLONE_PARENT_SETTID 标志 被 设置 时 才 有 意义 。 
ctid 
表示 新 轻 量 级 进程 的 用 户 态 变量 地 址 ， 该 进程 具有 这 一 类 进程 的 PID。 只 有 在 
CLONE_CHILD_SETTID 标志 被 设置 时 才 有 意义 。 
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表 3-8: clone 标志 


标志 名 称 
CLONE_VM 


CBDONE FS 


CLONE_FILES 


CLONE_SIGHAND 


CLONE_PTRACE 


CLONE_ VFORK 


CLONE_PARENT 


CLONE_THREAD 


CLONE_NEWNS 


GEONES SYSVSEM 


CUONE SSEDTTES 


GLONE -PARENT SETTID 


CLONE CHILD CUEARTED 


GEONE DETACHED 


CLONE_UNTRACED 


说 了 明 

共享 内 存 描述 符 和 所 有 的 页 表 (参见 第 九 章 ) 

共享 根 目录 和 当前 工作 目录 所 在 的 表 , 以 及 用 于 屏蔽 新 文 
eli (所 谓 文 件 的 umask ) 

共享 打开 文件 表 (参见 第 十 二 章 ) 
a 阻塞 信和 号 表 和 挂 起 信号 表 (参见 
第 十 一 章 )。 如 果 这 个 标志 为 true， 就 必须 设置 CLONE_. 
VM 标志 

如 果 父 进程 被 跟踪 ， 那 么 ， 子 进程 也 被 跟踪 。 尤 其 是 ， 
debugger 程 序 可 能 希望 以 自己 作为 父 进 程 来 跟踪 子 进程 ， 
在 这 种 情况 下 ， oa 

在 发 出 vfork() 系统 调 用 时 设置 (参见 本 市 后 
an ase 
parent 字段 ) 为 调用 进程 的 父 进程 

把 子 进 程 插入 到 父 进程 的 同一 线程 组 中 , 并 迫使 子 进程 共 
享 父 进程 的 信号 描述 符 。 因 此 也 设置 子 进 程 的 kgidq 字 段 
和 group._leader 字段 。 如 果 这 个 标志 位 为 true， 就 必须 
设置 CLONE_SIGHAND 标志 

当 clone 需要 自己 的 命名 空间 时 〈 即 它 自 己 的 已 挂 载 文件 
系统 视图 ) 设置 这 个 标志 (参见 第 十 二 章 )。 不 能 同时 设 
置 CLONE_NEWNS 和 CLONE_FS 

共享 System V IPC 取消 信号 量 的 操作 (参见 第 十 九 章 
"IPC 信号 时 和 ) 

为 轻 量 级 进程 创建 新 的 线程 局 部 存储 段 (TLS)， 该 段 由 参 
数 *1s 所 指 生 的 结构 进行 描述 

把 子 进程 的 PID 写 入 由 ptiad 参 数 所 指向 的 父 进 程 的 用 户 
态 变量 

如 果 该 标志 被 设置 , 则 内 核 建立 一 .种 触发 机 制 ， 用 在 子 进 
程 要 退出 或 要 开始 执行 新 程序 时 。 在 这 些 情况 下 ,内核 将 
清除 由 参数 ct ia 所 指向 的 用 户 态 变量 ,并 唤醒 等 待 这 个 
事件 的 任何 进程 

遗留 标志 ， 内 核 会 名 上 略 它 

内 核 设置 这 个 标志 以 使 CLONE_PTRACE 标志 失去 作用 
(用 来 禁 半 内核 线 程 跟踪 进程 ， 参 见 本 章 稍 后 的 “内 核 线 
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表 3-8: clone 标志 ( 续 ) 


标志 名 称 说 明 

CLONE_CHILD_SETTID 把 子 进程 的 PID 写 入 由 ctiad 参 数 所 指向 的 子 进程 的 用 户 
态 变 量 中 

CLONE_STOPPED 强迫 子 进程 开始 于 TASK_STOPPED 状态 





实际 上 ,clone() 是 在 C 语 言 库 中 定义 的 一 个 封装 (wrapper) 函数 (参见 第 十 章 “POSIX 
API 和 系统 调用 ”一 节 )， 它 负责 建立 新 轻 量 级 进程 的 堆栈 并 且 调 用 对 编程 者 隐藏 的 
clone() 系 统 调用 。 实 现 clone () 系统 调用 的 sys_clone() 服 务 例 程 没 有 fn 和 arg 参 
数 。 实 际 上 上， 封装 函数 把 fn 指针 存放 在 子 进程 堆栈 的 某 个 位 置 处 ,该 位 置 就 是 该 封装 
函数 本 身 返 回 地 址 存放 的 位 置 。arg 指针 正好 存放 在 子 进程 堆栈 中 fn 的 下 面 。 当 封装 
汞 数 结束 时 ，CPU 从 堆栈 中 取出 返回 地 址 ， 然 后 执行 fn (arg) 国 数 。 


传统 的 fork () 系统 调用 在 Linux 中 是 用 clone () 实 现 的 ， 其 中 clone() 的 flags 参 
数 指定 为 SIGCHLD 信号 及 所 有 清 0 的 clone 标志 ， 而 它 的 chilq_stack 参数 是 父 进程 
当前 的 堆栈 指针 。 因 此 ， 父 进程 和 子 进 程 暂时 共享 同一 个 用 户 态 堆 栈 。 但是, 要 感谢 写 
时 复制 机 制 , 通常 只 要 父子 进程 中 有 一 个 试图 去 改变 栈 , 则 立即 各 自得 到 用 户 态 堆栈 的 
一 份 拷贝 。 


前 一 节 描 述 的 vfork() 系统 调用 在 Linux 中 也 是 用 clone () 实 现 的 ， 其 中 clone () 的 
参数 flags 指定 为 SIGCHLD 信号 和 CLONE_VM 及 CLONE_VFORK 标志 ，clone() 的 


参数 chilqd_stack 等 于 父 进程 当前 的 栈 指 针 。 


do_fork(O) 函数 
qo_fork() 国 数 负 责 处 理 clone()、fork() 和 vfork() 系 统 调 用 , 执行 时 使 用 下 列 参数 : 


Clone_flags 
与 clone() 的 参数 flags 相同 。 
stack_start 
与 clone() 的 参数 chilq_stack 相同 。 
regs 
指 辣 通 用 寄存 器 值 的 指针 ,通用 寄 用 器 的 值 是 在 从 用 户 态 切换 到 内 核 态 时 被 保存 到 
内 核 态 堆栈 中 的 (参见 第 四 章 “do_IRQ() 函数 ”一 布 )。 
stack_size 


未 使 用 (总 是 被 设置 为 0)。 
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7 
I 


parent_tidptr,chilqd tidptr 


与 clone() 中 的 对 应 参数 ptid 和 ctid 相同 。 


do_fork () 利 用 辅助 函数 copy_process () 来 创建 进程 描述 符 以 及 子 进程 执行 所 需要 的 
所 有 其 他 内 核 数据 结构 。 下 面 是 do_fork () 执 行 的 主要 步骤 


1 . 


汪 8: 


通过 查找 pidmap_array 位 图 ,为 子 进程 分 配 新 的 PID (参见 本 章 前 面 “ 标 识 一 个 进 
程 ”一 节 ) 。 

检查 父 进 程 的 ptrace 字段 (current->ptrace): 如 果 它 的 值 不 等 于 0， 说 明 有 另 
外 一 个 进程 正在 跟踪 父 进 程 ， 因 而 ，do_fork () 检 查 debugger 程序 是 否 自己 想 跟 
踪 子 进程 (独立 于 由 父 进 程 指定 的 CLONE_PTRACE 标 志 的 值 )。 在 这 种 情况 下 ,如 
果子 进程 不 是 内 核 线程 (CLONE_UNTRACED 标志 被 清 0)， 那 么 ao_fork{() 国 数 
设置 CLONE_PTRACE 标志 。 


调用 copy_process () 复 制 进程 描述 符 。 如 果 所 有 必须 的 资源 都 是 可 用 的 , 该 函数 
返回 刚 创 建 的 task_struct 摘 述 符 的 地 址 。 这 是 创建 过 程 的 关键 步 又， 我 们 将 在 
do_fork() 之 后 描述 它 。 


如 有 果 设 置 了 CLONE_STOPPED 标 志 ， 或 者 必须 跟踪 子 进程 ， 即 在 p->ptrace 中 设 
置 了 PT_PTRACED 标 志 , 那么 子 进 程 的 状态 被 设置 成 TASK_STOPPED, 并 为 子 进 
程 增 加 挂 起 的 SIGSTOP 信 和 号 (参见 第 十 一 章 “ 信 号 的 作用 一 节 )。 在 另外 一 个 进程 
(不 妨 假 设 是 跟踪 进程 或 是 父 进 程 ) 把 子 进程 的 状态 恢复 为 TASK_RUNNING 之 前 
(通常 是 通过 发 送 SIGCONT 信号 ) ， 子 进程 将 一 直 保 持 TASK_STOPPED 状态 。 


如 果 设 有 设置 CLONE_STOPPED 标 志 , 则 调用 wake_up_new_task() 国 数 以 执行 

下 述 操作 ; 

a. 调整 父 进程 和 子 进 程 的 调度 参数 (参见 第 七 章 “ 调 度 算法 ”一 节 ) 

b. 如 果子 进程 将 和 父 进程 运行 在 同一 个 CPU 上 ( 注 8)， 而 且 父 进程 和 子 进 程 不 
能 共享 同一 组 页 表 (CLONE_VM 标 志 被 清 0), 那么 , 就 把 子 进程 插入 父 进程 运 
行 队列 , 插入 时 让 子 进程 恰好 在 父 进 程 前 面 , 因此 而 迫使 子 进程 先 于 父 进程 运 
行 。 如 果子 进程 刷新 其 地 址 空间 ,并 在 创建 之 后 执行 新 程序 ， 那么 这 种 简单 的 
处 理会 产生 较 好 的 性 能 。 而 如 果 我 们 让 父 进 程 先 运行 , 那么 写 时 复制 机 制 将 会 
执行 一 系列 不 必要 的 页 面 复制 。 

c. 否则 , 如 果子 进程 与 父 进程 运行 在 不 同 的 CPU 上 , 或 者 父 进程 和 子 进程 共享 同 
一 组 页 表 (CLONE_VM 标 志 被 设置 ), 就 把 子 进 程 插入 父 进程 运行 队列 的 队 尾 。 


. ”如果 CLONE_STOPPED 标志 被 设置 ， 则 把 子 进程 置 为 TASK_STOPPED 状态 。 


当 内 核 创建 一 个 新 进程 时 父 进程 有 可 能 会 被 转移 到 另 一 个 CPU 上 执行 。 
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如 果 父 进程 被 跟踪 ， 则 把 子 进程 的 PID 存 入 current 的 ptrace_message 字 段 并 调 
用 ptrace_notify()。ptrace_notify() 使 当前 进程 停止 运行 ， 并 向 当前 进程 的 
父 进程 发 送 SIGCHLD 信号 。 子 进程 的 祖父 进程 是 跟踪 父 进程 的 debugger 进程 。 
SIGCHLD 信 号 通知 debugger 进 程 : current 已 经 创建 了 一 个 子 进程 ， 可 以 通过 查 
找 current->ptrace_message 字 7 段 获 得 子 进 程 的 PID 。 


如 果 设 置 了 CLONE_VFORK 标 志 , 则 把 父 进程 插入 等 待 队 列 , 并 挂 起 父 进程 直到 子 
进程 释放 自己 的 内 存 地 址 空间 (也 就 是 说 ， 直 到 子 进程 结束 或 执行 新 的 程序 )。 


结束 并 返回 子 进程 的 PID。 


copy_process() 函 数 

copy_process() 创 建 进程 描述 符 以 及 子 进程 执行 所 需要 的 所 有 其 他 数据 结构 。 它 的 参 
数 与 do_fork() 的 参数 相同 ， 外 加 子 进程 的 PID。 下 面 描述 copy_process () 的 最 重要 
的 步骤 : 


1 . 


检查 参数 clone_f1ags 所 传递 标志 的 一 致 性 。 尤其 是 , 在 下 列 情况 下 , 它 返 回 错 

误 代 号 : 

a. CLONE_NEWNS 和 CLONE_FS 标志 都 被 设置 。 

b. CLONE_THRERAD 标志 被 设置 ， 但 CLONE_SIGHAND 标 志 被 清 0 (同一 线程 组 
中 的 轻 量 级 进程 必须 共享 信号 ) 。 

c， CLONE_SIGHAND 标 志 被 设置 , 但 CLONE_VM 被 清 0 (共享 信号 处 理 程序 的 轻 
量 级 进程 也 必须 共享 内 存 描述 符 ) 。 


通过 调用 security_task_create() 以 及 稍 后 调用 的 security_task_alloc() 执 

行 所 有 附加 的 安全 检查 。Linux 2.6 提 供 扩 展 安全 性 的 钓 子 函数 , 与 传统 Unix 相 比 ， 

它 具 有 更 加 强壮 的 安全 模型 。 详 情 参 见 第 二 十 章 。 

调用 aup_task_struct () 为 子 进程 获取 进程 描述 符 。 该 函数 执行 如 下 操作 : 

a. 如 果 需 要 , 则 在 当前 进程 中 调用 __unlazy_fpu(), 把 FPU、 MMX 和 SSE/SSE2 
寄存 器 的 内 容 保 存 到 父 进程 的 thread_info 结 构 中 。 稍 后 , Gup_task_struct () 
将 把 这 些 值 复制 到 子 进程 的 thread info 结 构 中 ， 

b. 执行 alloc_task_struct () 宏 ， 为 新 进程 获取 进程 描述 符 (task_struct 结 
构 )， 并 将 描述 符 地 址 保存 在 tsk 局 部 变量 中 。 

c， 执 行 a11oc_thread_info 宏 以 获取 一 块 空 闪 内 存 区 ， 用 来 存放 新 进程 的 
thread_info 结 构 和 内 核 栈 , 并 将 这 块 内 存 区 字段 的 地 址 存在 局 部 变量 ti 中 。 正 
如 在 本 章 前 面 “标识 一 个 进程 ”一 节 中 所 述 ; 这 块 内 存 区 字段 的 大 小 是 8KB 或 4KB。 
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d. 将 current 进程 描述 符 的 内 容 复 制 到 tsk 所 指 回 的 task_struct 结 构 中 , 然 
后 把 tsk->thread_info 置 为 上 i。 


e. 把 current 进 程 的 thread_info 描述 符 的 内 容 复 制 到 ti 所 指向 的 结构 中 , 然 
后 把 ti->task 置 为 tsk。 


f. 把 新 进程 描述 符 的 使 用 计数 器 (tsk->usage) 置 为 2, 用 来 表示 进程 描述 符 正 
在 被 使 用 而 且 其 相应 的 进程 处 于 活动 状态 (进程 状态 即 不 是 EXIT_ZOMBIE,， 
也 不 是 EXIT_DEAD)， 


g. 返回 新 进程 的 进程 描述 符 指 针 (tsk)。 


检查 存放 在 current->signal->rlim[RLIMIT_NPROC] .rl1im_cur 变 量 中 的 值 是 否 
小 于 或 等 于 用 户 所 拥有 的 进程 数 。 如 果 是 ， 则 返回 错误 码 ， 除 非 进程 没有 root 权 
限 。 该 函数 从 每 用 户 数 据 结 构 user_struct 中 获取 用 户 所 拥有 的 进程 数 。 通 过 进 
程 描述 符 user 字段 的 指针 可 以 找到 这 个 数据 结构 。 

递增 user_struct 结构 的 使 用 计数 器 (tsk->user-> _ _ count 字段 ) 和 用 户 所 
拥有 的 进程 的 计数 器 (tsk->user->processes ) 。 


检查 系统 中 的 进程 数量 (存放 在 nr_threaqs 变 量 中 ) 是 否 超过 max_threaqs 变 量 的 

值 。 这 个 变量 的 缺 省 值 取 决 于 系统 内 存 容量 的 大 小 。 总 的 原则 是 : 所 有 thread_info 

描述 符 和 内 核 栈 所 占用 的 空间 不 能 超过 物理 内 存 大 小 的 1/8。 不 过 , 系统 管理 员 可 以 

通过 写 /proc/sys/kernel/threads-max 文件 来 改变 这 个 值 。 

如 果实 现 新 进程 的 执行 域 和 可 执行 格式 的 内 核 范 数 (参见 第 二 十 章 ) 都 包含 在 内 核 

模块 中 ， 则 递增 它们 的 使 用 计数 器 (参见 附录 二 )。 

设置 与 进程 状态 相关 的 儿 个 关键 字段 : 

a. 把 大 内 核 锁 计数 器 tsk->lock_depth 初 始 化 为 -1 (参见 第 五 章 “ 大 内 核 锁 ” 一 
市 )。 

b. 把 tsk->diqd_exec 字段 初始 化 为 0: 它 记 录 了 进程 发 出 的 execve () 系 统 调用 
的 次 数 。 

c. 更 新 从 父 进 程 复制 到 tsk->flags 字 段 中 的 一 些 标志 :首先 清除 PF_SUPERPRIV 
标志 ， 该 标志 表示 进程 是 否 使 用 了 某 种 超级 用 户 权 限 。 然 后 设置 
PF_FORKNOEXEC 标志 ， 它 表示 子 进程 还 没有 发 出 execve () 系统 调用 。 


把 新 进程 的 PID 存 人 tsk->pid 字 段 。 


如 果 clone_flags 参数 中 的 CLONE_PARENT_SETTID 标志 被 设置 ， 就 把 子 进 程 
的 PID 复制 到 参数 parent_tidptr 指 向 的 用 户 态 变量 中 。 
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11. 初始 化 子 进程 描述 符 中 的 1ist_head 数 据 结 构 和 自 旋 锁 , 并 为 与 挂 起 信号 、 定 时 器 
及 时 间 统 计 表 相关 的 几 个 字段 赋 初 值 。 

12. 调用 copy_semundo(),， copy_files(),， copy_fs(), copy_sighand(), 
copy_signal () ，copy_mm() 和 copy_namespace() 来 创建 新 的 数据 结构 ， 并 把 父 
进程 相应 数据 结构 的 值 复制 到 新 数据 结构 中 ， 除 非 clone_flags 参数 指出 它们 有 
不 同 的 值 。 

13. 调用 copy_thread()， 用 发 出 clone () 系 统 调 用 时 CPU 寄存 如 的 值 (正如 第 十 章 所 
述 ， 这 些 值 已 经 被 保存 在 父 进程 的 内 核 栈 中 ) 来 初始 化 子 进程 的 内 核 栈 。 不 过 ， 
copy_thread() 把 eax 寄存 器 对 应 字段 的 值 [这 是 fork() 和 clone () 系 统 调用 在 
子 进程 中 的 返回 值 ] 字段 强行 置 为 0。 子 进程 描述 符 的 thread.esp 字 段 初始 化 为 子 
进程 内 核 栈 的 基地 址 , 汇编 语言 国 数 (ret_from_fork() ) 的 地 址 存放 在 thread.eip 
字段 中 。 如 果 父 进程 使 用 UVO 权限 位 图 ， 则 子 进 程 获 取 该 位 图 的 一 个 拷贝 。 最 后 ， 如 
果 CLONE_SETTLS 标 志 被 设置 ,， 则 子 进程 获取 由 clone() 系统 调用 的 参数 tls 指 向 
的 用 户 态 数据 结构 所 表示 的 TLS 7 段 ( 注 9)。 


14. 如 果 clcne_flags 参 数 的 值 被 置 为 CLONE_CHILD_SETTID 或 CLONE_CHILD_CLEARTID， 
就 把 chilq tiaptr 参 数 的 值 分 别 复制 到 tsk->set_chiaQ_ tid 或 tsk->clear_child tia 
字段 。 这 些 标志 说 明 : 必须 改变 子 进 程 用 户 态 地 址 空间 的 child_tidptr 所 指向 的 变量 
的 值 ， 不 过 实际 的 写 操作 要 稍 后 再 执行 。 

15. 清除 子 进 程 thread_info 结构 的 TIF_SYSCALL_TRACE 标 志 , 以 使 ret_from_fork () 
函数 不 会 把 系统 调用 结束 的 消息 通知 给 调试 进程 (参见 第 十 章 “ 进 入 和 退出 系统 调 
用 ”一 节 )。( 因 为 对 子 进程 的 跟踪 是 由 tsk->ptrace 中 的 PIRACE_SYSCALL 标 志 来 控 
制 的 ， 所 以 子 进程 的 系统 调用 跟踪 不 会 被 禁用 ,) 


16.，， 用 clone_flags 参数 低位 的 信号 数字 编码 初始 化 tsk->exit_signal 字段 ， 如 果 
CLONE_THREAD 标志 被 置 位 ， 就 把 tsk->exit_signal 字段 初始 化 为 -1。 正 如 我 
们 将 在 本 章 稍 后 “进程 终止 ”一 节 所 看 见 的 , 只 有 当 线 程 组 的 最 后 一 个 成 员 (通常 
是 线程 组 的 领头 ) 死 亡 ” , 才 会 产生 一 个 信号 ,以 通知 线程 组 的 领头 进程 的 父 进程 。 
17. 调用 sched_fork() 完 成 对 新 进程 调度 程序 数据 结构 的 初始 化 ,该 函数 把 新 进程 的 状 
态 设置 为 TASK_RUNNING， 并 把 thread_info 结 构 的 preempt_count 字段 设置 为 


注 9: 细心 的 读者 可 能 想 知 道 copy_threadQ() 怎 样 获得 clone() 的 上 ls 参数 的 值 ， 因 为 ls 并 
不 被 传递 给 do_fork() 和 嵌 套 函数 。 我 们 将 在 第 十 章 看 到 , 通常 通过 拷贝 系统 调用 的 参数 
的 值 到 某 个 CPU 寄存 器 来 把 它们 传递 给 内 核 ; 因此 ,这 些 值 与 其 他 寄存 器 一 起 被 保存 在 内 
核 态 堆栈 中 。copy_thread() 函 数 只 查看 esi 的 值 在 内 核 堆 栈 中 对 应 的 位 置 保存 的 地 址 。 
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1， 从 而 禁止 内 核 抢 占 (参见 第 五 章 “ 内 核 抢 占 ” 一 节 )。 此 外 ， 为 了 保证 公平 的 进 
程 调度 , 该 国 数 在 父子 进程 之 间 共 享 父 进程 的 时 间 片 (参见 第 七 章 “scheduler_tick() 
国 数 ”一 刷 )。 
把 新 进程 的 thread_info 结 构 的 cpu 字 段 设 置 为 由 smp_processor_id() 所 返回 的 
本 地 CPU 号 。 


初始 化 表示 亲子 关系 的 字段 。 尤 其 是 , 如 果 CLONE_PARENT 或 CLONE_THREAD 被 设 
置 , 就 用 current->real parent 的 值 初始 化 tsk->real parent 和 tsk->parent,， 
因此 , 子 进 程 的 父 进程 似乎 是 当前 进程 的 父 进程 。 否 则 , 把 tsk->real_parent 和 tsk- 
>parent 置 为 当前 进程 。 


如 果 不 需 要 跟踪 子 进 程 (没有 设置 CLONE_PTRAC 标 志 ), 就 把 tsk->ptrace 字 段 
设置 为 0。tsk->ptrace 字 段 会 存放 一 些 标志 ,而 这 些 标志 是 在 一 个 进程 被 另外 一 
个 进程 跟踪 时 才 会 用 到 的 。 采用 这 种 方式 , 即使 当前 进程 被 跟踪 , 子 进程 也 不 会 被 
跟踪 。 


执行 SET_LINKS 宏 ， 把 新 进程 描述 符 插 入 进程 链表 。 


如 果子 进程 必须 被 跟踪 (tsk->ptrace 字 段 的 PT_PTRACED 标志 被 设置 )， 就 把 
current->parent 贼 给 tsk->parent， 并 将 子 进程 插 和 人 调试 程序 的 跟踪 链表 中 。 


调用 attach_pid() 把 新 进程 描述 符 的 PID 插入 pidhash[PIDTYPE_PID] 散 列表 。 

如 果子 进程 是 线程 组 的 领头 进程 (CLONE_THREAD 标志 被 清 0): 

a. 把 tsk->tgid 的 初 值 置 为 tsk->pid。 

b.， 把 tsk->group_leader 的 初 值 置 为 tsk。 

c. 调用 三 次 attach_piaq() ,把 子 进 程 分 别 插 入 PIDTYPE_TGID. PIDTYPE_PGID 
和 PIDTYPE_SID 类 型 的 PID 散 列 表 。 

否则 ， 如 果子 进程 属于 它 的 父 进程 的 线程 组 (CLONE_THREAD 标志 被 设置 )、 

a. 把 tsk->tgiQ 的 初 值 置 为 tsk->current->tgia。 

b， 把 tsk->group_leader 的 初 值 置 为 current->group_leader 的 值 。 

c. ”调用 attach_pid(), 把 子 进程 插入 PIDTYPE_TGID 类 型 的 散 列表 中 (更 具 
体 地 说 ,插入 current->group_leader 进程 的 每 个 PID 链表 )。 

现在 ， 新 进程 已 经 被 加 入 进程 集合 : 递增 nr_threads 变量 的 值 。 

递增 total_forks 变量 以 记录 被 创建 的 进程 的 数量 。 

终止 并 返回 子 进 程 描述 符 指针 (tsk)。 
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让 我 们 回头 看 看 在 ao_fork () 结 束 之 后 都 发 生 了 什么 。 现 在 , 我 们 有 了 处 于 可 运行 状态 

J 完整 的 子 进 程 。 但 是 ， 它 还 没有 实际 运行 ， 调 度 程序 要 决定 何 时 把 CPU 交 给 这 个 子 进 
程 。 在 以 后 的 进程 切换 中 , 调度 程序 继续 完善 子 进程 : 把 子 进程 描述 符 thread 字段 的 值 
装 入 几 个 CPU 寄存 器 。 特别 是 把 thread.esp( 即 把 子 进程 内 核 态 堆栈 的 地 址 ) 装 和 人 esPp 
寄存 器 ， 把 函数 ret_from_fork() 的 地 址 装 入 eip 寄存 器 。 这 个 汇编 语言 函数 调用 
schedule tail() 国 数 ( 它 依次 调用 finish_task_switch() 来 完成 进程 切换 , 参见 第 七 
章 “schedule() 函 数 ” 一 节 )， 用 存放 在 栈 中 的 值 再 装载 所 有 的 寄存 器 ， 并 强迫 CPU 返回 
到 用 户 态 。 然 后 ,在 fork () 、vfork() 或 clone() 系 统 调用 结束 时 ， 新 进程 将 开始 执行 。 
系统 调用 的 返回 值 放 在 eax 寄存 器 中 : 返回 给 子 进程 的 值 是 0, 返回 给 父 进程 的 值 是 子 进 
程 的 PID。 回 顾 copy_thread() 对 子 进程 的 eax 寄存 器 所 执行 的 操作 (copy_process () 
的 第 13 步 ) ， 就 能 理解 这 是 如 何 实现 的 。 


除非 fork 系 统 调用 返回 0, 否 则 , 子 进 程 将 与 父 进程 执行 相同 的 代码 (参见 copy_process () 
的 第 13 步 ) 。 应 用 程序 的 开发 者 可 以 按照 Unix 编程 者 熟悉 的 方式 利用 这 一 事实 ， 在 基于 
PID 值 的 程序 中 插入 一 个 条 件 语句 使 子 进程 与 父 进 程 有 不 同 的 行为 。 


内 核 线 程 


传统 的 Unix 系 统 把 一 些 重 要 的 任务 委托 给 周期 性 执行 的 进程 ,这 些 任 务 包括 刷新 磁盘 高 
速 绥 存 ,交换 出 不 用 的 页 框 ,维护 网 络 连 接 等 等 。 事实 上 ,以 严格 线性 的 方式 执行 这 些 
任务 的 确 效 率 不 高 , 如 果 把 它们 放 在 后 台 调 度 , 不 管 是 对 它们 的 函数 还 是 对 终端 用 户 进 
程 都 能 得 到 较 好 的 响应 。 因为 一 些 系统 进程 只 运行 在 内 核 态 , 所 以 现代 操作 系统 把 它们 
的 函数 委托 给 内 核 线 程 (kernel tpread) ， 内 核 线程 不 受 不 必要 的 用 户 态 上 下 文 的 拖累 。 
在 Linux 中 ， 内 核 线 程 在 以 下 几 方 面 不 同 于 普通 进程 : 


。 ”内 核 线程 只 运行 在 内 核 态 ， 而 普通 进程 既 可 以 运行 在 内 核 态 ， 也 可 以 运行 在 用 户 
太 


i oo 


。 ”因为 内 核 线 程 只 运行 在 内 核 态 , 它们 只 使 用 大 于 PAGE_OFFSET 的 线性 地 址 空间 。 
另 一 方面 ， 不 管 在 用 户 态 还 是 在 内 核 态 ， 普 通 进 程 可 以 用 4GB 的 线性 地 址 空间 。 


创建 一 个 内 核 线程 


kernel_thread() 函 数 创 建 一 个 新 的 内 核 线 程 , 它 接 受 的 参数 有 : 所 要 执行 的 内 核 函 数 
的 地 址 (fn)、 要 传递 给 函数 的 参数 (arg)、 一 组 clone 标 志 (flags)。 该 函数 本 质 
上 以 下 面 的 方式 调用 do_fork () : 


do_fork (flags|lCLONE_VM|CLONE_UNTRACED, 0, pregs, 0, NULL, NULL)}).; 
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CLONE_VM 标 志 避 免 复制 调用 进程 的 页 表 :由 于 新 内 核 线程 无 论 如 何 都 不 会 访问 用 户 态 
地 址 空间 ， 所 以 这 种 复制 无 疑 会 造成 时 间 和 空间 的 浪费 。CLONE_UNTRACED 标 志保 证 
不 会 有 任何 进程 跟踪 新 内 核 线 程 ， 即 使 调用 进程 被 跟踪 。 


传递 给 ao_fork () 的 参数 pregs 表示 内 核 栈 的 地 址 ，copy_thread() 函 数 将 从 这 里 找 
到 为 新 线程 初始 化 CPU 寄存 器 的 值 。kernel_thread() 范 数 在 这 个 栈 中 保留 寄存 器 值 
的 目的 是 : 

。 “通过 copy_thread() 把 ebx 和 eqx 分 别 设置 为 参数 fn 和 arg 的 值 。 

。 把 eip 寄存 器 的 值 设 置 为 下 面 汇 编 语言 代码 段 的 地 址 : 


mov1 Sedx, Ceax 
pushl %®edx 
call *%®ebx 
pushl %®eax 
call do exit 


因此 ， 新 的 内 核 线 程 开 始 执行 fn (arg) 函数 ， 如 果 该 函数 结束 ， 内 核 线程 执行 系统 调 
用 ._exit()， 并 把 fn() 的 返回 值 传递 给 它 (参见 本 章 稍 后 “撤消 进程 ”一 节 )。 


进程 0 

所 有 进程 的 祖先 叫做 进程 0，idle 进程 或 因为 历史 的 原因 叫做 swapper 进程 ， 它 是 在 
Linux 的 初始 化 阶段 从 无 到 有 创建 的 一 个 内 核 线程 (参见 附录 一 )。 这 个 祖先 进程 使 用 下 
列 静态 分 配 的 数据 结构 (所 有 其 他 进程 的 数据 结构 都 是 动态 分 配 的 ): 

。 “存放 在 init_task 变量 中 的 进程 描述 符 ， 由 INIT_TASK 宏 完 成 对 它 的 初始 化 。 


. 存放 在 init_tnread_union 变量 中 的 thread._info 描 述 符 和 内 核 堆 栈 ， 由 
INIT_THREAD_INFO 宏 完 成 对 它们 的 初始 化 。 


。 ”由 进程 描述 符 指向 的 下 列表 : 
一 init_mm 
一 init_fs 
一 init_files 
一 init_signals 
一 init_sighang 
这 些 表 分 别 由 下 列 宏 初 始 化 : 


一 INIT_MM 
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= 

— INIT_FILES 
= TNIT STGNABGS 
一 INIT_SIGHAND 


。 ” 主 内 核 页 全 局 目录 存放 在 swapper_p9g_dir 中 (参见 第 二 章 “ 内 核 页 表 ” 一 节 )。 


start_kernel () 国 数 初 始 化 内 核 需要 的 所 有 数据 结构 ， 激 锋 中 断 ， 创 建 另 一 个 叫 进程 
i 的 内 核 线程 (一般 叫做 ii 进程 ) : 


kernel thread(init, NULL, CLONE _ FSICLONE SIGHAND): 


新 创建 内 核 线程 的 PID 为 1， 并 与 进程 0 共享 每 进程 所 有 的 内 核 数据 结构 。 此 外 ， 当 调 
度 程序 选择 到 它 时 ，init 进程 开始 执行 init () 困 数 。 


创建 init 进程 后 , 进程 0 执行 cpu_idle() 明 数 , 该 函数 本 质 上 是 在 开 中 断 的 情况 下 重复 
执行 hlt 汇编 语言 指令 (参见 第 四 章 )。 只 有 当 没 有 其 他 进程 处 于 TASK_RUNNING 状 
态 上 时， 调度 程 序 才 选择 进程 0。 


在 多 处 理 器 系统 中 ,每 个 CPU 都 有 一 个 进程 0。 只 要 打开 机 器 电源 ， 计 算 机 的 BIOS 就 
启动 某 一 个 CPU ， 同 时 禁用 其 他 CPU。 运行 在 CPU 0 上 的 swapper 进程 初始 化 内 核 数 
据 结 构 , 然后 激 锋 其 他 的 CPU, 并 通过 copy_process() 明 数 创 建 另外 的 swapper 进程 ， 
把 0 传递 给 新 创建 的 swapper 进程 作为 它们 的 新 PID。 此 外 ， 内 核 把 适当 的 CPU 索引 赋 
给 内 核 所 创建 的 每 个 进程 的 thread_info 描 述 符 的 cpu 字段。 


进程 1 

由 进程 0 创建 的 内 核 线程 执行 init () 函数 ，init () 依 次 完成 内 核 初始 化 。init () 调 用 
execve () 系统 调用 装 人 可 执行 程序 init。 结 果 ，init 内 核 线程 变 为 一 个 普通 进程 ， 且 拥 
有 自己 的 每 进程 (per-process) 内 核 数 据 结 构 (参见 第 二 十 章 )。 在 系统 关闭 之 前 ,init 
进程 一 直 存 活 ， 因 为 它 创建 和 监控 在 操作 系统 外 层 执 行 的 所 有 进程 的 活动 。 


其 他 内 核 线 程 


Linux 使 用 很 多 其 他 内 核 线 程 。 其 中 一 些 在 初始 化 阶段 创建 ,一直 运行 到 系统 关闭 ， 而 
其 他 一 些 在 内 核 必 须 执行 一 个 任务 时 “ 按 需 ”创建 ,这 种 任务 在 内 核 的 执行 上 下 文中 得 
到 很 好 的 执行 。 


一 些 内 核 线 程 的 例子 (除了 进程 0 和 进程 1) 是 : 
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jn 
- 宪 


keventd (也 礁 夭 为 事件 ) 
执行 keventa_wq 工作 队列 (参见 第 四 章 ) 中 的 函数 。 


kapmd 

处 理 与 高 级 电源 管理 (APM) 相 关 的 事件 。 
kswapd 

执行 内 存 回 收 ， 在 第 十 七 章 “ 周 期 回收 ”一 市 将 进行 描述 。 
pdadflush 


刷新 “ 脏 ” 缓 冲 区 中 的 内 容 到 磁盘 以 回收 内 存 , 在 第 十 五 章 “pdflush 内 核 线程 ”一 
节 将 进行 描述 。 

kblockd 
执行 kblockd_workqueue 工 作 队列 中 的 函数 。 实 质 上 ， 它 周期 性 地 巩 话 块 设备 驱 
动 程序 ， 将 在 第 十 四 章 “ 激 活 块 设备 驱动 程序 ”一 节 给 予 描述 。 

ksoftirqd 
运行 tasklet (参看 第 四 章 “ 软 中 断 及 tasklet” 一 节 )， 系统 中 每 个 CPU 都 有 这 样 一 
个 内 核 线程 。 


撤消 进程 

很 多 进程 终止 了 它们 本 该 执行 的 代码 ， 从 这 种 意义 上 说 ,这 些 进 程 “ 死 ”了 。 当 这 种 情 
况 发 生 有 时， 必须 通知 内 核 以 便 内 核 释 放 进 程 所 拥有 的 资源 ， 包括 内 存 、 打 开 文 件 及 其 他 
我 们 在 本 书 中 讲 到 的 零碎 东西 ， 如 信号 量 。 


进程 终止 的 一 般 方 式 是 调用 exit () 库 国 数 ， 该 函数 释放 C 图 数 库 所 分 配 的 资源 ， 执 行 
编程 者 所 注册 的 每 个 函数 ， 并 结束 从 系统 回收 进程 的 那个 系统 调用 。exit () 函数 可 能 
由 编程 者 显 式 地 插入 。 另 外 ，C 编译 程序 总 是 把 exit () 国 数 插入 到 main () 函数 的 最 
后 一 条 语句 之 后 。 


内 核 可 以 有 选择 地 强迫 整个 线程 组 死 掉 。 这 发 生 在 以 下 两 种 典型 情况 下 : 当 进 程 接 收 到 
一 个 不 能 处 理 或 忽视 的 信号 时 (参见 十 一 章 )， 或 者 当 内 核 正 在 代表 进程 运行 时 在 内 核 
态 产生 一 个 不 可 恢复 的 CPU 异常 时 (参见 第 四 章 )。 


进程 终止 
在 Linux 2.6 中 有 两 个 终止 用 户 态 应 用 的 系统 调用 ， 


进程 
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exit_group() 系 统 调 用 , 它 终止 整个 线程 组 , 即 整 个 基于 多 线程 的 应 用 ,do_group_exit () 
是 实现 这 个 系统 调用 的 主要 内 核 消 数 。 这 是 C 库 函 数 exit () 应 该 调用 的 系统 调用 。 
exit () 系 统 调用 ， 它 终止 某 一 个 线程 ， 而 不 管 该 线程 所 属 线程 组 中 的 所 有 其 他 进 
程 。 do_exit () 是 实现 这 个 系统 调用 的 主要 内 核 贤 数 。 这 是 被 诸如 pthread_exit () 
的 Linux 线程 库 的 函数 所 调用 的 系统 调用 。 


do_group_exit() 函 数 

do_group_exit () 函数 杀 死 属于 current 线程 组 的 所 有 进程 。 它 接受 进程 终止 代号 作 
为 参数 ， 进 程 终止 代号 可 能 是 系统 调用 exit_group () (正常 结束 ) 指定 的 一 个 值 ， 也 
可 能 是 内 核 提 供 的 一 个 错误 代号 (异常 结束 )。 该 函数 执行 下 述 操作 : 


] . 


检查 退出 进程 的 SIGNAL_GROUP_EXIT 标 志 是 否 不 为 0， 如 果 不 为 0， 说 明 内 核 
已 经 开始 为 线程 组 执行 退出 的 过 程 。 在 这 种 情况 下 ， 就 把 存放 在 current 
->signal->group_exit_code 中 的 值 当 作 退 出 码 ， 然 后 跳 转 到 第 4 步 。 


2， 否则， 设置 进程 的 SIGNRAL_GROUP_EXIT 标志 并 把 终止 代号 存放 到 current 
->signal->group_exit_coae 字 段 。 

3. 调用 zap_other_threads () 国 数 杀 死 current 线 程 组 中 的 其 他 进程 (如 果 有 的 话 ) 。 
为 了 完成 这 个 步骤 , 国 数 扫 拉 与 current->tgiqQ 对 应 的 PIDTYPE_TGID 类 型 的 散 
列表 中 的 每 个 PID 链 表 , 向 表 中 所 有 不 同 于 current 的 进程 发 送 SIGKILL 信 号 ( 参 
见 第 十 一 章 )， 结 果 ， 所 有 这 样 的 进程 都 将 执行 do_exit () 国 数 ， 从 而 被 杀 死 。 

4. 调用 ao_exit () 滑 数 ， 把 进程 的 终止 代号 传递 给 它 。 正 如 我 们 将 在 下 面 看 到 的 ， 
do_exit () 杀 死 进程 而 且 不 再 返回 。 

do_exit() 函数 


所 有 进程 的 终止 都 是 由 do_exit () 函数 来 处 理 的 , 这 个 函数 从 内 核 数 据 结 构 中 删除 对 终 
止 进程 的 大 部 分 引用 。do_exit () 消 数 接受 进程 的 终止 代号 作为 参数 并 执行 下 列 操作 : 


] . 
2. 


把 进程 描述 符 的 flag 字段 设置 为 PF_EXITING 标志 ， 以 表示 进程 正在 被 删除 。 


如 果 需 要 ， 通 过 函数 del_timer_sync()( 参 多 第 六 章 ) 从 动态 定时 器 队列 中 删除 
分 别 调用 exit_mm(})}.、exit sem()、__exit files{()、_ 
namespace() 和 exit_threadq() 国 数 从 进程 描述 符 中 分 离 出 与 分 页 、 信 号 量 、 文 件 
系统 、 打 开 文 件 描述 符 、 命 名 空间 以 及 LO 权限 位 图 相关 的 数据 结构 。 如 果 没 有 其 
他 进程 共享 这 些 数据 结构 ， 那 么 这 些 商 数 还 删除 所 有 这 些 数据 结构 中 。 


exit_fs(), exit_ 
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如 果实 现 了 被 杀 死 进程 的 执行 域 和 可 执行 格式 (参见 第 二 十 章 ) 的 内 核 函 数 包含 在 
内 核 模块 中 ， 则 函数 递减 它们 的 使 用 计数 器 。 

把 进程 描述 符 的 exit_code 字段 设置 成 进程 的 终止 代号 ， 这 个 值 要 么 是 
_exit () 或 exict_group () 系 统 调 用 参数 (正常 终止)， 要 么 是 由 内 核 提供 的 一 个 
错误 代号 (异常 终止 )。 


调用 exit_notify() 国 数 执行 下 面 的 操作 : 


3. 


更 新 父 进程 和 子 进程 的 亲属 关系 。 如 果 同 一 线程 组 中 有 正在 运行 的 进程 ,就 让 
终止 进程 所 创建 的 所 有 子 进程 都 变 成 同一 线程 组 中 另外 一 个 进程 的 子 进程 ,人 否 
则 让 它们 成 为 init 的 子 进程 。 

检查 被 终止 进程 其 进程 描述 符 的 exit_signal 字 段 是 否 不 等 于 -1, 并 检查 进程 
是 否 是 其 所 属 进程 组 的 最 后 一 个 成 员 (注意 : 正常 进程 都 会 具有 这 些 条 件 ， 参 
见 前 面 “clone(O、fork(O 和 vfork0O) 系统 调用 ”一 节 中 对 copy_process() 的 描 
述 , 第 16 步 )。 在 这 种 情况 下 ， 国 数 通 过 给 正 被 终止 进程 的 父 进程 发 送 一 个 信 
号 (通常 是 SIGCHLD)， 以 通知 父 进程 子 进程 死亡 。 

否则 ,也 就 是 exit_signal 字 段 等 于 -1, 或 者 线程 组 中 还 有 其 他 进程 ,那么 只 
要 进程 正在 被 跟踪 ， 就 同 父 进程 发 送 一 个 SIGCHLD 信号 (在 这 种 情况 下 ， 父 
进程 是 调试 程序 ， 因 而 ， 同 它 报 告 轻 量 级 进程 死亡 的 信息 )。 

如 果 进 程 描述 符 的 exit_signal 字 有 段 等 于 -1, 而 且 进 程 没 有 被 跟踪 , 就 把 进程 
描述 符 的 exit_state 字 段 置 为 EXIT_DEAD, 然后 调用 release_task() 回 收 
进程 的 其 他 数据 结构 占用 的 内 存 ， 并 递减 进程 描述 符 的 使 用 计数 器 ( 见 下 一 
节 )。 使 用 记 数 器 变 为 1 (参见 copy_process () 国 数 的 第 3f 步 )， 以 使 进程 摘 
述 符 本 身 正 好 不 会 被 释放 。 

人 否则， 如 果 进 程 描述 符 的 exit_signal 字 段 不 等 于 -1, 或 进程 正在 被 跟踪， 就 
把 exit_state 字 段 置 为 EXIT_ZOMBIE。 在 下 一 市 我 们 将 看 到 如 何 处 理念 死 
进程 。 

把 进程 描述 符 的 flags 字段 设置 为 PF_DEAD 标 志 (参见 第 七 章 “schedule() 
国 数 ”一 市 )。 


调用 schedqule() 国 数 〈 参 见 第 七 章 ) 选择 一 个 新 进程 运行 。 调 度 程序 忽略 处 于 
EXIT_ZOMBIE 状 态 的 进程 ， 所 以 这 种 进程 正好 在 schequle () 中 的 宏 switch_to 
被 调用 之 后 停止 执行 。 正 如 在 第 七 章 我 们 将 看 到 的 :调度 程序 将 检查 被 替换 的 伪 死 
进程 搓 述 符 的 PFE_DEAD 标志 并 递减 使 用 计数 占 ， 从 而 说 明 进 程 不 再 存活 的 事实 。 
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进程 删除 

Unix 允许 进程 查询 内 核 以 获得 其 父 进程 的 PID, 或 者 其 任何 子 进程 的 执行 状态 。 例如, 进 
程 可 以 创建 一 个 子 进程 来 执行 特定 的 任务 , 然后 调用 诸如 wait () 这 样 的 一 些 库 函 数 检 
查 子 进程 是 否 终止 。 如 果子 进程 已 经 终止 ,那么 ， 它 的 终止 代号 将 告诉 父 进程 这 个 任务 
是 否 已 成 功 地 完成 。 


为 了 遵循 这 些 设计 选择 ,不 允许 Unix 内 核 在 进程 一 终止 后 就 丢弃 包含 在 进程 描述 符 字 有 段 
中 的 数据 。 只 有 父 进 程 发 出 了 与 被 终止 的 进程 相关 的 wait () 类 系统 调用 之 后 , 才 人 允许 
这 样 做 。 这 就 是 引入 僵 死 状态 的 原因 : 尽管 从 技术 上 来 说 进程 已 死 , 但 必须 保存 它 的 描 
述 符 ， 直 到 父 进程 得 到 通知 。 


如 果 父 进程 在 子 进程 结束 之 前 结束 会 发 生 什么 情况 呢 ? 在 这 种 情况 下 ,系统 中 会 到 处 是 
优 死 的 进程 , 而 且 它 们 的 进程 描述 符 永 久 占据 着 RAM。 如 前 所 述 , 必须 强迫 所 有 的 攻 儿 
进程 成 为 init 进程 的 子 进程 来 解决 这 个 问题 。 这 样 ，iniit 进程 在 用 wait () 类 系统 调用 
检查 其 合法 的 子 进程 终止 时 ， 就 会 撤消 伪 死 的 进程 。 


release_task() 国 数 从 僵 死 进程 的 摘 述 符 中 分 离 出 最 后 的 数据 结构 ， 对 僵 死 进程 的 处 

理 有 两 种 可 能 的 方式 : 如 果 父 进程 不 需要 接收 来 自 子 进程 的 信号 ， 就 调用 do_exit ()， 

如 果 已 经 给 父 进程 发 送 了 一 个 信号 ,就 调用 wait4 () 或 waitpia() 系 统 调用 。 在 后 一 种 

情况 下 ,函数 还 将 回收 进程 描述 符 所 占用 的 内 存 空间 ,而 在 前 一 种 情况 下 ， 内存 的 回收 

将 由 进程 调度 程序 来 完成 (参见 第 七 章 )。 该 函数 执行 下 述 步 又 : 

1. 递减 终止 进程 拥有 者 的 进程 个 数 。 这 个 值 存 放 在 本 章 前 面 提 到 的 user_struct 结 
构 中 (参见 copy_process () 的 第 4 步 )。 

2. 如 果 进 程 正 在 被 跟踪 ， 函 数 将 它 从 调试 程序 的 ptrace_children 链 表 中 删除 ， 并 
让 该 进程 重新 属于 初始 的 父 进程 。 

3. 调用 __exit_signal () 删 除 所 有 的 挂 起 信号 并 释放 进程 的 signal_struct 描 述 符 。 


如 果 该 描述 符 不 再 被 其 他 的 轻 量 级 进程 使 用 ， 国 数 进一步 删除 这 个 数据 结构 。 此 
外 ， 函 数 调 用 exic_itimers() 从 进程 中 刊 离 掉 所 有 的 POSIX 时 间 间 隔 定 时 器 。 


4. 调用”_exit_sighang() 删 除 信号 处 理 限 数 。 
5. ”调用 _._unhash_process{)， 该 函数 依次 执行 下 面 的 操作 : 
a. 恋 量 nr threads 减 1。 


b.， 两 次 调用 detach_pid(), 分 别 从 PIDTYPE_PID 和 PIDTYPE_TGID 类 和 型 
的 PID 散 列 表 中 删除 进程 描述 符 。 
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c. 如果 进 程 是 线程 组 的 领头 进程 , 那么 再 调用 两 次 detach_pid(), 从 PIDTYPE_ 
PGID 和 PIDTYPE_SID 类 型 的 散 列 表 中 删除 进程 描述 符 。 


d. 用 宏 REMOVE_LINKS 从 进程 链表 中 解除 进程 描述 符 的 链接 。 
如 果 进 程 不 是 线程 组 的 领头 进程 , 领头 进程 处 于 伪 死 状态 , 而 且 进 程 是 线程 组 的 最 
后 一 个 成 员 ， 则 该 函数 向 领头 进程 的 父 进程 发 送 一 个 信号， 通知 它 进程 已 死亡 。 


调用 sched_exit() 函数 来 调整 父 进程 的 时 间 片 (这 一 步 在 逻辑 上 作为 对 
copy_process() 第 17 步 的 补充 )。 


调用 put_task_struct () 递 碱 进程 描述 符 的 使 用 计数 器 ,如果 计数 器 变 为 0, 则 函 
数 终止 所 有 残留 的 对 进程 的 引用 。 


a.， 递减 进程 所 有 者 的 user_struct 数据 结构 的 使 用 计数 器 (__count 字段 ) ( 参 
见 copy_process () 的 第 $ 步 )， 如 果 使 用 计数 器 变 为 0， 就 释放 该 数据 结构 。 


b. 释放 进程 描述 符 以 及 thread_info 描 述 符 和 内 核 态 堆栈 所 占用 的 内 存 区 域 。 
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中 断 和 异常 





中 断 (interrupn) 通 常 被 定义 为 一 个 事件 ,该 事件 改变 处 理 器 执行 的 指令 顺序 。 这 样 的 事 
件 与 CPU 世 片 内 外 部 硬件 电路 产生 的 电信 号 相对 应 。 


中 断 通 常 分 为 同步 (synchronous) 中 断 和 异步 (asynchronous) 中 断 : 


。 ”同步 中 断 是 当 指令 执行 时 由 CPU 控制 单元 产生 的 , 之 所 以 称 为 同步 ,是 因为 只 有 在 


一 条 指令 终止 执行 后 CPU 才 会 发 出 中 断 。 
s。 异步 中 断 是 由 其 他 硬件 设备 依照 CPU 时 钟 信 号 随机 产生 的 。 


在 Intel 微 处 理 器 手册 中 ,把 同步 和 异步 中 断 分 别称 为 异常 (exception) 和 中 断 (interrupi)。 
我 们 也 采用 这 种 分 类 ， 当然 有 时 我 们 也 用 术语 “中 断 信号 ” 指 这 两 种 类 型 (同步 及 异步 ) 。 


中 断 是 由 间隔 定时 器 和 1/O 设 的 ， 例 如 ， 用 户 的 一 次 按键 会 引起 一 个 中 断 。 

另 一 方面 ， 异 常 是 由 程序 的 错误 产生 的 ,或 者 是 由 内 核 必须 处 理 的 异常 条 件 产生 的 。 第 
一 种 情况 下 ,内核 通过 发 送 一 个 每 个 Unix 程 序 员 都 熟悉 的 信号 来 处 理 异 常 。 第 二 种 情况 
下 ， 内核 执行 恢复 异常 需要 的 所 有 步骤 ,例如 缺 页 ,或 对 内 核 服务 的 一 个 请 求 (通过 一 
条 int 或 sysenter 指令 )。 


我 们 在 下 一 节 描 述 引 入 信号 的 动机 ， 以 此 开始 进行 学 习 。 然 后 ,说明 由 1/0O 设备 产生 的 
著名 IRQ (Interrupt ReQuest) 如 何 引 起 中 断 ， 我 们 将 详细 讨论 80x86 微 处 理 器 如 何在 
硬件 级 处 理 中 断 和 异常 。 接 下 来 ,我 们 将 在 “初始 化 中 断 描述 符 表 ”一 节 曾 明 Linux 如 
何 初 始 化 Intel 中 断 结构 必需 的 所 有 数据 结构 。 剩 余 的 3 节 描 述 Linux 如 何在 软件 级 处 理 
中 断 信和 号。 
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继续 进行 学 习 之 前 ， 需 要 值得 注意 的 是 : 我 们 在 本 章 仅 涉及 对 所 有 PC 都 通用 的 “经 典 ” 
中 断 ， 而 不 涉及 一 些 体系 结构 的 非 标准 中 断 。 


中 断 信号 的 作用 

顾名思义 , 中 断 信号 提供 了 一 种 特殊 的 方式 , 使 处 理 器 转 而 去 运行 正常 控制 流 之 外 的 代 
码 。 当 一 个 中 断 信号 达到 时 , CPU 必须 停止 它 当前 正在 做 的 事情 , 并 且 切 换 到 一 个 新 的 
活动 。 为 了 做 到 这 一 点 ， 就 要 在 内 核 态 堆栈 保存 程序 计数 器 的 当前 值 ( 即 eip 和 cs 寄 
存 器 的 内 容 ) ， 并 把 与 中 断 类 型 相关 的 一 个 地 址 放 进 程序 计数 器 。 


在 本 章 , 有 些 事情 会 使 你 想起 在 前 一 章 描述 的 上 下 文 切换 , 这 上 发生 在 内 核 用 一 个 进程 替 
换 另 一 个 进程 时 。 但 是 ,中 断 处 理 与 进程 切换 有 一 个 明显 的 差异 : 由 中 断 或 异常 处 理 程 
序 执行 的 代码 不 是 一 个 进程 。 更 确切 地 说 ， 它 是 一 个 内 核 控制 路 径 ， 代 表 中 断 发 生 时 正 
在 运行 的 进程 执行 【参见 本 章 “ 中 断 和 异常 处 理 程序 的 戏 套 执行 ”一 节 )。 作 为 一 个 内 
核 控 制 路 径 ， 中 断 处 理 程 序 比 一 个 进程 要 “ 轻 ”(light) (中 断 的 上 下 文 很 少 , 建立 或 终 
止 中 断 处 理 需 要 的 时 间 很 少 ) 。 


中 断 处 理 是 由 内 核 执 行 的 最 敏感 的 任务 之 一 ， 因 为 它 必 须 满 足下 列 约 束 : 


。 ” 当 内 核 正 打算 去 完成 一 些 别 的 事情 时 , 中 断 随 时 会 到 来 。 因此 , 内 核 的 目标 就 是 让 
中 断 尽 可 能 快 地 处 理 完 , 尽 其 所 能 把 更 多 的 处 理 向 后 推迟 。 例如 , 假设 一 个 数据 块 
已 到 达 了 网 线 , 当 硬 件 中 断 内 核 时 , 内 核 只 简单 地 标志 数据 到 来 了 , 让 处 理 器 恢复 
到 它 以 前 运行 的 状态 , 其 余 的 处 理 稍 后 再 进行 (如 把 数据 移入 一 个 缓冲 区 , 它 的 接 
收 进程 可 以 在 缓冲 区 找到 数据 并 恢复 这 个 进程 的 执行 )。 因 此 ,， 内核 啊 应 中 断后 露 。 





要 进行 的 操作 分 为 两 部 分 : 关键 而 紧急 的 即 执行 其 余 推迟 的 部 分 ， 
内 核 随后 执行 ， 


。 ”因为 中 断 随时 会 到 来 , 所 以 内 核 可 能 正在 处 理 其 中 的 一 个 中 断 时 , 另 一 个 中 断 (不 
同类 型 ) 又 发 生 了 。 应 该 尽 可 能 多 地 允许 这 种 情况 发 生 ， 因 为 这 能 维持 更 多 的 110 
设备 处 于 忙 状态 (参见 “中 断 和 异常 处 理 程序 的 内 套 执行 ”一 市 )。 因 此 ， 中 断 处 
理 程序 必须 编写 成 使 相应 的 内 核 控制 路 径 能 以 戏 套 的 方式 执行 。 当 节 后 一 个 内 核 控 
制 路 径 终 止 时 , 内 核 必须 能 恢复 被 中 断 进 程 的 执行 , 或 者 , 如 果 中 断 信号 已 导致 了 
重新 调度 ， 内 核能 切换 到 另外 的 进程 。 

。 ”尽管 内 核 在 处 理 前 一 个 中 断 时 可 以 接受 一 个 新 的 中 断 , 但 在 内 核 代码 中 还 是 存在 一 
些 临界 区 ， 在 临界 区 中 , 中 断 必 须 被 禁止 。 必 须 尽 可 能 地 限制 这 样 的 临界 区 ,因为 
根据 以 前 的 要 求 , 内 核 , 尤其 是 中 断 处 理 程序 , 应 该 在 大 部 分 时 间 内 以 开 中 其 的 方 
式 运 行 。 
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中 断 和 异常 


Intel 文档 把 中 断 和 异常 分 为 以 下 几 类 : 


. 以 所 人 许 机 帮 、 的 还 糊 断 cpV 是 否 能 负 E 中 断 请 夏 


i (maskable interrupt ) 
1/O 设 备 发 出 的 所 有 中 断 请 求 (IRQ) 都 产生 可 屏蔽 中 断 。 可 屏蔽 中 断 可 以 处 于 
两 种 状态 : 屏蔽 的 (masked) 或 非 屏 项 的 (unmasked)， 一 个 屏蔽 的 中 断 只 要 
还 是 屏蔽 的 ， 控 制 单元 就 忽略 它 。 


非 友 三 中 断 (nonmaskable Interrupi) | 
只 有 几 个 危急 事件 (如 硬件 故障 ) 才 引 起 非 屏蔽 中 断 。 非 屏 项 中 断 总 是 由 CPU 
济 认 。 不 受 Hf 久 汽 柯 太 .BR 向 7 陛 十 软件 直行 民 烙 、 
。 ”异常 : 
处 青 品 过 出 蜡 肖 (processor-detecied exception) 
当 CPU 执行 指令 时 探测 到 的 一 个 反常 条 件 所 产生 的 异常 。 可 以 进一步 分 为 三 
组 , 这 取决 于 CPU 控 制 单元 产生 异常 时 保存 在 内 核 态 堆栈 eip 寄 存 器 中 的 值 。 


均 障 (fault) 
通常 可 以 纠正 ; 一 旦 纠正 , 程序 就 可 以 在 不 失 连 贯 性 的 情况 下 重新 开始 。 保 
存在 eip 中 的 值 是 引起 故障 的 指令 地 址 。 因 此 ， 当 异常 处 理 程序 终止 时 ， 那 
条 指令 会 被 重新 执行 。 我 们 将 在 第 九 章 的 “ 缺 页 异常 处 理 程序 一 节 中 看 到 ， 
只 要 处 理 程序 能 纠正 引起 异常 的 反常 条 件 ， 重 新 执行 同一 指令 就 是 必要 的 。 


议 尽 (rrap) 
在 陷阱 指令 执行 后 立即 报告 ; 内 核 把 控制 权 返 回 给 程序 后 就 可 以 继续 它 的 
执行 而 不 失 连 贯 性 。 保 存在 eip 中 的 值 是 一 个 随后 要 执行 的 指令 地 址 。 只 
有 当 没 有 必要 重新 执行 已 终止 的 指令 时 ， 才 触发 陷阱 。 陷 阱 的 主要 用 途 是 
为 了 调试 程序 。 在 这 种 情况 下 ， 中 断 信号 的 作用 是 通知 调试 程序 一 条 特殊 
指令 已 被 执行 (例如 到 了 一 个 程序 内 的 断 点 )。 一 旦 用 户 检查 到 调试 程序 所 
提供 的 数据 ， 她 就 可 能 要 求 被 调试 程序 从 下 一 条 指令 重新 开始 执行 。 

异常 由 此 (abor!) 
发 生 一 个 严重 的 错误 ; 控制 单元 出 了 问题 , 不 能 在 eip 寄 存 器 中 保存 引起 
异常 的 指令 所 在 的 确切 人 位置。 异常 中 止 用 于 报告 严重 的 错误 ， 如 硬件 故障 
或 系统 表 中 无 效 的 值 或 不 一 致 的 值 。 由 控制 单元 发 送 的 这 个 中 断 信 号 是 紧 
急 信号 ， 用 来 把 控制 权 切 换 到 相应 的 异常 中 止 处 理 程序 ， 这 个 异常 中 止 处 
理 程序 除了 强制 受 影响 的 进程 终止 外 ， 设 有 别 的 选择 。 
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编程 异 沼 {programmed exception) 
在 编程 者 发 出 请 求 时 发 生 。 是 由 int 或 int3 指令 触发 的 ， 当 into( 检 查 溢出 ) 
和 bound (检查 地 址 出 界 ) 指令 检查 的 条 件 不 为 真 时 ， 也 引起 编程 异常 。 控 制 单 
元 把 编程 异常 作为 陷阱 来 处 理 。 编 程 异常 通常 也 叫做 软 中 断 (sofiware interrupi)。 
这 样 的 异常 有 两 种 常用 的 用 途 :执行 系统 调用 及 给 调试 程序 通报 一 个 特定 的 事件 
(参见 第 十 章 )。 


每 个 中 断 和 异常 是 由 0~ 255 之 间 的 一 个 数 来 标识 。 因 为 一 些 未 知 的 原因 ，Intel 把 这 个 
8 位 的 无 符号 整数 叫做 一 个 向 量 (vector)。 非 屏蔽 中 断 的 向 量 和 异常 的 向 量 是 固定 的 ， 
而 可 屏蔽 中 断 的 向 量 可 以 通过 对 中 断 控制 器 的 编程 来 改变 (参见 下 一 市 )。 


IRQ 和 中 断 


ee 条 名 为 IRQ (Interrupt ReQuest) 的 输出 
有 如 i ] 断 挖 制 器 (Programmable 
饥 相 连 . 可 编程 中 断 控制 器 执行 下 列 动作 : 


下 监视 IRQ 线 ， 检查 产生 的 信号 (raised signal)。 如 果 有 条 或 两 条 以 上 的 IRQ 线 上 


产生 信和 号， 就 选择 引 脚 小 的 IRQ 线 。 


2. 如果 一 个 引发 信号 出 现在 IRQ 线 上 : 
a. 把 接收 到 的 引发 信号 转换 成 对 应 的 向 量 。 


b. 把 这 个 向 量 存放 在 中 断 控 制 器 的 一 个 IO 端口 , 从 而 允许 CPU 通 过 数据 总 线 读 
此 向 量 。 


c. 把 引发 信号 发 送 到 处 理 器 的 INTR 引 脚 ， 即 产生 一 个 中 断 。 


d. 等 待 , 直到 CPU 通过 把 这 个 中 断 信号 写 进 可 编程 中 断 控 制 器 的 一 个 IO 端口 来 
确认 它 ， 当 这 种 情况 发 生 时 ， 清 INTR 线 。 
3. 返回 到 第 1 步 。 






IRQ 线 是 从 0 开始 顺序 编号 的 ， 因 此 ， 第 一 条 IRQ 线 通 常 表 示 
的 Intel 的 喘 省 问 量 是 n+32。 如 前 所 述 ， 泛 过 疝 中 断 控制 加 端口 发 布 合适 的 指令 ， 就 可 








可 以 有 选择 地 禁止 每 条 IRQ 线 。 因此， 可 以 对 PIC 编程 从 而 禁止 IRQ， 也 就 是 说 ， 可 以 
告诉 PIC 停 止 对 给 定 的 IRQ 线 发 布 中 断 , 或 者 激活 它们 。 禁 止 的 中 断 是 丢失 不 了 的 , 它 


注 1 : 复杂 一 些 的 设备 有 几 条 IROQ 线 ,例如 ，PCI 卡 可 能 使 用 多 达 4 条 IRQ 线 。 


中 断 和 异常 139 


们 一 旦 被 激活 ，PIC 就 又 把 它们 发 送 到 CPU。 这 个 特点 被 大 多 数 中 断 处 理 程序 使 用 , 因 
为 这 允许 中 断 处 理 程序 逐次 地 处 理 同一 类 型 的 IRQ。 


有 选择 地 激活 /禁止 IRQ 线 不 同 于 可 屏蔽 中 断 的 全 局 屏 项 / 非 屏 珊 。 当 eflags 寄存 器 的 
IF 标志 被 清 0 时 ， 由 PIC 发 布 的 每 个 可 屏 项 中 断 都 由 CPU 暂时 忽略 。c1li 和 sti 汇编 
指令 分 别 清除 和 设置 该 标志 。 


传统 的 PIC 是 由 两 片 8259A 风格 的 外 部 芯片 以 “级 联 ” 的 方式 连接 在 一 起 的 。 每 个 芯片 
可 以 处 理 多 达 8& 个 不 同 的 IRQ 输入 线 。 因 为 从 PIC 的 INT 和 输出 线 连 接 到 主 PIC 的 IRQ2 
引 脚 ， 因 此 ， 可 用 IRQ 线 的 个 数 限制 为 15。 


高 级 可 编程 中 断 控制 器 


以 前 的 描述 仅 涉及 为 单 处 理 器 系统 设计 的 PIC。 如 果 系 统 只 有 一 个 单独 的 CPU, 那么 主 
PIC 的 输出 线 以 直截了当 的 方式 连接 到 CPU 的 INTR 引 脚 。 然 而 ， 如 果 系 统 中 包含 两 个 
或 多 个 CPU， 那 么 这 种 方式 不 再 有 效 ， 因 而 需要 更 复杂 的 PIC。 


为 了 充分 发 挥 SMP 体 系 结 构 的 并 行 性 , 能够 把 中 断 传 递 给 系统 中 的 每 个 CPU 至 关 重 要 。 
基于 此 理由 , Intel 从 Pentiun III 开 始 引 入 了 一 种 名 为 VODO 高 级 可 编程 控制 器 (YAODA4dvanced 
Programmable Interrupt Controller,1/O APIC) 的 新 组 件 ， 用 以 代替 老式 的 8259A 可 编 
程 中 断 控制 器 。 新近 的 主板 为 了 支持 以 前 的 操作 系统 都 包括 两 种 芯片 。 此 外, 80x86 微 处 
理 器 当前 所 有 的 CPU 都 含有 一 个 本 地 APIC。 每 个 本 地 APIC 都 有 32 位 的 寄存 器 、 一 个 
内 部 时 钟 、 一 个 本 地 定时 设备 及 为 本 地 APIC 中 断 保留 的 两 条 额外 的 IRQ 线 LINTO0 和 
LINT1。 所 有 本 地 APIC 都 连接 到 一 个 外 部 IO APIC， 形 成 一 个 多 APIC 的 系统 。 


图 4-1 以 示意 图 的 方式 显示 了 一 个 多 APIC 系统 的 结构 。 一 条 APIC 总 线 把 “前 端 ”LO 
APIC 连接 到 本 地 APIC。 来 自 设 备 的 IRQ 线 连接 到 LIUO APIC, 因此 , 相对 于 本 地 APIC， 
UVO APIC 起 路 由 器 的 作用 。 在 Pentium II 和 早期 处 理 器 的 母 板 上 ，APIC 总 线 是 一 个 
串 行 三 线 总 线 ， 从 Pentium 4 开始，APIC 总 线 通过 系统 总 线 来 实现 。 不 过 ， 因 为 APIC 
总 线 及 其 信息 对 软件 是 不 可 见 的 ， 因 此 ， 我 们 不 做 进一步 的 详细 讨论 。 


IO APIC 的 组 成 为 : 一 组 24 条 IRQ 线 .一 张 24 项 的 中 断 重 定 向 表 (Interrupt Redirection 
Table)、 可 编程 寄存 器 , 以 及 通过 APIC 总 线 发 送 和 接收 APIC 信 息 的 一 个 信息 单元 。 与 
8259A 的 IRQ3 引 脚 不 同 , 中 断 优先 级 并 不 与 引 脚 号 相关 联 : 中 断 重 定向 表 中 的 每 一 项 都 
可 以 被 单独 编程 以 指明 中 断 向 量 和 优先 级 . 目标 处 理 器 及 选择 处 理 器 的 方式 。 重 定向 表 
中 的 信息 用 于 把 每 个 外 部 IRQ 信 号 转换 为 一 条 消息 ， 然 后， 通过 APIC 总 线 把 消息 发 送 
给 一 个 或 多 个 本 地 APIC 单元 。 
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一 一 本 地 /RO 一 一 本 地 /Ras 
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" 
1 >” 





4-1; 多 APlIC 系统 


来 自 外 部 硬件 设备 的 中 断 请 求 以 两 种 方式 在 可 用 CPU 之 间 分 发 : 


前 在 分 发 
IRQ 信和 号 传递 给 重 定 向 表 相 应 项 中 所 列 出 的 本 地 APIC。 中 断 立 即 传递 给 一 个 特定 
的 CPU， 或 一 组 CPU， 或 所 有 CPU (广播 方式 )。 

如 果 处 理 器 正在 执行 量 低 优先 级 的 进程 ,IRQ 信 号 三 传递 给 这 种 处 理 器 的 本 地 APIC。 
每 个 本 地 APIC 都 有 一 个 可 编程 任务 优先 级 寄存 器 (task priority register, TPR)， 
TPR 用 来 计算 当前 运行 进程 的 优先 级 。lntel 希望 在 操作 系统 内 核 中 通过 每 次 进程 
切换 对 这 个 寄存 器 进行 修改 。 

如 果 两 个 或 多 个 CPU 共享 最 低 优 先 级 , 就 利用 仲裁 (arbitrarion) 技术 在 这 些 CPU 之 
间 分 配 负荷 。 在 本 地 APIC 的 仲裁 优先 级 寄存 器 中 ,给 每 个 CPU 都 分 配 一 个 0( 最 低 ) ~ 
15 (最 高 ) 范围 内 的 值 。 

每 当中 断 传 递 给 一 个 CPU 时 , 共 相 应 的 仲裁 优先 级 就 自动 置 为 0, 而 其 他 每 个 CPU 
的 仲裁 优先 级 都 增加 1。 当 仲 裁 优 先 级 寄存 器 大 于 15 时 ， 就 把 它 置 为 获胜 CPU 的 
前 一 个 仲裁 优先 级 加 1。 因 此 , 中 断 以 轮转 方式 在 CPU 之 间 分 发 ,有 旦 具有 相同 的 任 
务 优先 级 【 注 2)。 





证 了 Pentium 4 本 地 APIC 没有 仲裁 优先 级 寄存 器 ， 仲裁 机 制 隐藏 在 总 线 件 裁 电 路 中 。Intel] 
手册 中 声明， 如 果 操 作 系 统 内 核 不 能 有 规律 地 更 新 任务 优先 级 寄 丰 器 ,那么 性 能 可 能 束 
达 不 到 最 优 ， 因 为 中 断 有 可 能 总 是 由 同一 个 CPU 处 理 ， 
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除了 在 处 理 器 之 间 分 发 中 断 外 ， 多 APIC 系统 还 允许 CPU 产生 处 理 器 间 中 断 
(interprocessor interrupt)。 当 一 个 CPU 希望 把 中 断 发 给 另 一 个 CPU 了 时 , 它 就 在 自己 本 
地 APIC 的 中 断 指 令 寄 存 器 (Interrupt Command Register ，ICR) 中 存放 这 个 中 类 向 量 
和 目标 本 地 APIC 的 标识 符 。 然 后 , 通过 APIC 总 线 向 目标 本 地 APIC 发送 一 条 消息 ， 从 
而 向 自己 的 CPU 发 出 一 个 相应 的 中 断 。 


处 理 器 间 中 断 (简称 IPI) 是 SMP 体系 结 构 至 关 重 要 的 组 成 部 分 ， 并 由 Linux 有 效 地 用 
来 在 CPU 之 间 交 换 信息 (参见 本 章 后 面 )。 


目前 大 部 分 单 处 理 器 系统 都 包含 一 个 IO APIC 世 片 , 可 以 用 以 下 两 种 方式 对 这 种 芯片 进行 配置 


。 作为 一 种 标准 8259A 方式 的 外 部 PIC 连接 到 CPU。 本 地 APIC 被 禁止 , 两 条 LINTO 
和 LINTI 本 地 IRQ 线 分 别 配置 为 INTR 和 NMI 5 引 脚 。 


。 作为 一 种 标准 外 部 WO APIC。 本 地 APIC 被 激活 ， 且 所 有 的 外 部 中 斯 都 通过 IJO APIC 接收 。 


处理 器 性 刘 的 异常 ( 注 3)。 内核 必 须 为 : | l 
而 异常 处 理 程序 ， 对 干 革 些 晨 , CPU 控制 单元 在 开始 执行 异常 处 理 程序 前 会 产生 一 个 
硬件 出 错 码 (hardware error code )， 并 且 压 人 人 内核 坊 堆栈。 





下 面 的 列表 给 出 了 在 80x86 处 理 器 中 可 以 找到 的 异常 的 向量 、 名 字 . 类 型 及 其 简单 描述 。 
更 多 的 信息 可 以 在 Intel 的 技术 文 挡 中 找到 。 


0 - “Divide error ”| 医大 ) 
当 一 个 程序 试图 执行 整数 被 0 除 操作 时 产生 。 


1- “Debug ”{ 脆 脖 或 均 膛 ) 
产生 于 : @ 设 置 eflags 的 TF 标志 时 (对 于 实现 调试 程序 的 单 步 执行 是 相当 有 用 
的 }，@ 一 条 指令 或 操作 数 的 地 址 落 在 一 个 活动 debug 寄存 器 的 范围 之 内 (参见 第 
三 章 的 “硬件 上 下 文 ”一 节 )。 

2 - 未 用 
为 非 屏 项 中 断 保留 (利用 NMI 引 脚 的 那些 中 断 )。 


3- “Breakpoinr” ( 防 太 | 
由 int3 ( 断 点 ) 指令 (通常 由 debugger 插 入 ) 引起 。 








注 3: 精确 的 数字 依 精 于 处 理 器 模型 。 
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10 - 


7 了 7 - 


12 - 


= 


14 - 


生 4: 
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CC es 


- “Overfiow”[( 详 庶 ) 


当 eflags 的 OF (overflow) 标 志 被 设置 时 ，into( 检 查 滋 出) 指令 被 执行 。 


- “Bounds check ”( 故 防 ) 


对 于 有 效 地 址 范围 之 外 的 操作 数 ，bound( 检 查 地 址 边界 ) 指 令 被 执行 。 


- “Invalid opcode ”( 艾 辜 ) 


CPU 执行 单元 检测 到 一 个 无 效 的 操作 码 (决定 执行 操作 的 机 器 指令 部 分 )。 
“Device nor avaiaplie” (页 障 ) 

随 着 cr0 的 TS 标志 被 设置 ，ESCAPE、MMX 或 XMM 指令 被 执行 (参见 第 三 章 
的 “保存 和 加 载 FPU、MMX 及 XMM 寄存 器 ”一 节 ) 。 


- “Double fault”( 坚 党 中 上 上) 


正常 情况 下 ， 当 CPU 正 试图 为 前 一 个 异常 调用 处 理 程 序 时 ， 同时 又 检测 到 一 个 异 
常 , 两 个 异常 能 被 串 行 地 处 理 。 然 而 , 在 少数 情况 下 , 处 理 器 不 能 串 行 地 处 理 它 们 ， 
因而 产生 这 种 异常 。 


- “Coprocessor segment overrun ”( 蜡 党 中 上 小) 


因 外 部 的 数学 协 处 理 器 引起 的 问题 ( 仅 用 于 80386 微 处 理 器 )。 

“jnvalid TSS”( 蔽 障 ) 

CPU 试图 让 一 个 上 下 文 切换 到 有 无 效 的 TSS 的 进程 。 

“Segment not present ”|( 履 谭 ) 

引用 一 个 不 存在 的 内 存 段 ( 段 描述 符 的 Segment -Present 标志 被 清 0) 。 
“Stack segment jall”( 豆 障 ) 

试图 超过 栈 段 界 限 的 指令 ， 或 者 由 ss 标识 的 段 不 在 内 存 。 

“General protection ” (故障 ) 

违反 了 80x86 保护 模式 下 的 保护 规则 之 一 。 

“Page ai”( 页 障 ) 

寻 址 的 页 不 在 内 存 ， 相 应 的 页 表 项 为 空 ， 或 者 违反 了 一 种 分 页 保护 机 制 。 


- 由 jntel 保留 
- “Floating point error”( 南 大 | 


集成 到 CPU 芯片 中 的 秀 点 单元 用 信号 通知 一 个 错误 情形 , 如 数字 溢出 , 或 被 0 除 ( 广 4)。 





二 一 -一 一 一 -一 


80x86 徽 处 理 器 也 产生 这 个 异常 ， 这 发 生 在 质 行 一 个 带 桂 号 的 除法 运 莽 ， 而 运算 结果 不 
能 以 带 符 号 整数 存放 的 时 候 { 例 加 -2 147 483 648 到 -1 之 间 的 一 个 除法 运算 )， 
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17- “Alienment check”[( 辟 辜 ) 

操作 数 的 地 址 没有 被 正确 地 对 齐 (例如 ， 一 个 长 整数 的 地 址 不 是 4 的 倍数 )。 
18 - “Machine check”[{ 恒 党 中 中 ) 

机 器 检查 机 制 检测 到 一 个 CPU 错误 或 总 线 错误 ，。 
19- “SIMD floating point exception ” ( 豆 辜 |) 

集成 到 CPU 芯片 中 的 SSE 或 SSE2 单元 对 浮 点 操作 用 信号 通知 一 个 错误 情形 。 


20~31 这 些 值 由 Intel 留 作 将 来 开发 。 如 表 4-1 所 示 , 每 个 异常 都 由 专门 的 异常 处 理 程序 
来 处 理 (参见 本 章 后 面 的 “异常 处 理 ” 一 市 )， 它们 通常 把 一 个 Unix 信号 发 送 到 引起 异 
弟 的 进程 。 


表 4-1; 由 异常 处 理 程 序 发 送 的 信号 


编号 异常 异常 处 理 程 序 信号 

0 Divide error divide error() SIGFPE 

] Debug debugl) SIGTRAP 
2 NMI nmi{) None 

3 Breakpoint int31t) SIGTRAP 
4 Overflow Overflow!) SIGSEGYV 
5 Bounds check bounds ( ) SIGSEGV 
6 Invalid opcode invalid_op{) SIGILL 
4 Device not available device_ not_available!) None 

8 Double fault doublefault_fn1{) None 

9 Coprocessor segment overrun COPIrocessor_ Segment _overrunl) SIGFPE 
10 Invalid TSS invalid tss!{) SIGSEGV 
11 Segment not present segment_not_present ( ) SIGBUS 
12 Stack exception stack_segment () SIGBUS 
13 General protection general. protection!(} SIGSEGYV 
14 Page fault page_faultt) SIGSEGV 
15 Intel reserved None None 

16 Floating point error COoprocessor_error{) SIGFPE 
17 Alienment check alignment _ check!{) SIGSEGV 
18 Machine check machine_check () None 

19 SIMD floating point simd_coprocessor_error{) SIGFPE 
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中 断 描述 符 表 

中 断 摘 述 符 表 (fnterrupt Descriptior Table，IDT) 是 一 它 与 每 一 个 中 断 或 
异常 癌 量 相 联系 , 每 一 个 向 量 在 表 中 有 相应 的 中 断 或 显 当 处 理 程序 的 入口 地 址 。 内 核 在 
允许 中 断 发 生前 ， 必需 适当 地 初始 化 IDT。 





在 第 二 章 中 ， 我 们 介绍 了 GDT 和 LDT， 表 中 
的 每 一 项 对 应 一 个 中 断 或 异常 向 量 ， 每 个 向 和 
8=2048 字 节 来 存放 IDT 





idtr CPU 寄存 器 使 IDT 可 以 位 于 内 存 的 任何 地 方 ， Co 
(最 大 长 讼 )。 在 允许 中 断 之 前 ， 必 须 用 lidti 


IDT 包 含 三 种 类 型 的 描述 符 , 图 4-2 显 示 了 每 种 描述 符 中 的 64 位 的 含义 。 尤 其 值得 注意 
的 是 ， 在 40~43 位 的 Type 字段 的 值 琢 示 描述 符 的 类 型 。 








任务 门 描述 符 


乓 各 将 
| 


TS SEGMENT SELECTOR 
31302227222422220101807101014312110 987 6 4432710 
中 断 门 描述 符 
站 人 全 提 史 中 中 站 站 天 史 史 引 和 有 要 驴 和 四 力 畏 机 和 和 相 笨 再 末 基站 到 33 生 


偏 移 量 (16-31] 


3 引物 鸭 鸡 222223222 人 0 人 1716151403111109876543210 


陷阱 门 描述 符 
全 人 人 反 往 笛 别 站 站 到 别 灵 下 区 香 相 和 条 特 科 本 和 和 和 了 3 和 3635 了 4 和 3 入 


偏 移 量 (16-31) 





313 和 0002227262223222009171151312111098765437210 


4-2: 门 描述 符 的 格式 





中 断 和 异常 145 


这 些 描述 符 是 : 


任务 门 (task gate) 
当中 断 信号 发 生 时 , 必须 取代 当前 进程 的 那个 进程 的 TSS 选 择 符 存放 在 任务 门 中 。 
由 mT] (interrupt gate ) 
包含 段 选择 符 和 中 断 或 异常 处 理 程序 的 段 内 偏 移 量 。 当 控制 权 转 移 到 一 个 适当 的 段 
时 ， 处 理 器 清 IF 标志 ， 从 而 关闭 将 来 会 发 生 的 可 屏蔽 中 断 。 


议 财 1 (Trap 8ale ) 
与 中 断 门 相 似 ， 只 是 控制 权 传递 到 一 个 适当 的 段 时 处 理 器 不 修改 IF 标志。 


正如 我 们 将 在 “中 断 门 、 陷 阱 门 及 系统 门 ”一 节 中 所 看 到 的 那样 ，Linux 利用 中 断 门 处 


理 中 断 ， 利 用 陷阱 门 处 理 异 常 . ( 注 5)。 


中 断 和 异常 的 硬件 处 理 


我 们 现在 描述 CPU 控制 单元 如 何 处 理 中 断 和 异常 。 我 们 假定 内 核 已 被 初始 化 ， 因 此 ， 
CPU 在 保护 模式 下 运行 。 


当 执 行 了 一 条 指令 后 , cs 和 eip 这 对 寄存 器 包含 下 一 条 将 要 执行 的 指令 的 逻辑 地 址 。 在 
处 理 那 条 指令 之 前 ,控制 单元 会 检查 在 运行 前 一 条 指令 时 是 否 已 经 发 生 了 一 个 中 断 或 异 
常 。 如 果 发 生 了 一 个 中 断 或 异常 ， 那 么 控制 单元 执行 下 列 操作 


1. ”确定 与 中 断 或 异常 关联 的 向 量 i (0 < i < 255)。 


2. 读 由 idtr 寄存 器 指向 的 IDT 表 中 的 第 i 项 (在 下 面 的 描述 中 ,我们 假定 IDT 表 项 
中 包含 的 是 一 个 中 断 门 或 一 个 陷阱 门 ) 。 


3， 从 gatr 寄 存 器 获得 GDT 的 基地 址 ， 并 在 GDT 中 查找 ， 以 读 取 IDT 表 项 中 的 选 
择 符 所 标识 的 段 描 述 符 。 这 个 描述 符 指定 中 断 或 异常 处 理 程序 所 在 段 的 基地 址 。 


4. ”确信 中 断 是 由 授权 的 (中断 ) 发 生源 发 出 的 。 首先 将 当前 特权 级 CPL (存放 在 cs 寄 
存 器 的 低 两 位 ) 与 段 描述 符 (存放 在 GDT 中 ) 的 描述 符 特权 级 DPL 比较, 如 果 CPL 
小 于 DPL ， 就 产生 一 个 “General protection ”异常 ， 因 为 中 断 处 理 程序 的 特权 不 能 
低 于 引起 中 断 的 程序 的 特权 。 对 于 编程 异常 , 则 做 进一步 的 安全 检查 : 比较 CPL 与 
处 于 IDT 中 的 门 描述 符 的 DPL , 如 果 DPL 小 于 CPL , 就 产生 一 个 “General protection” 
异常 。 这 最 后 一 个 检查 可 以 避免 用 户 应 用 程序 访问 特殊 的 陷阱 门 或 中 断 门 。 








注 5; “Double fault” 骨 常 是 唯一 由 任务 门 处 理 的 异常 、 它 表示 一 各 内核 错 误 ( 泰 见 本 章 稍 后 
“异常 处 理 ” 一 节 )。 
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检查 是 否 发 生 了 特权 级 的 变化 ， 也 就 是 说 ，CPL 是 否 不 同 于 所 选择 的 段 描述 符 的 
DPL. 如 果 是 , 控制 单元 必须 开始 使 用 与 新 的 特权 级 相关 的 栈 。 通过 执行 以 下 步 又 
来 做 到 这 点 : 


a， 读 tr 寄存器， 以 访问 运行 进程 的 TSS 段 。 


b. 用 与 新 特权 级 相关 的 栈 段 和 栈 指针 的 正确 值 装载 ss 和 esp 寄存 颖 。 这 些 值 可 
以 在 TSS 中 找到 (参见 第 三 章 的 “任务 状态 段 ”一 布 ) 

c， 在 新 的 栈 中 保存 ss 和 esp 以 前 的 值 ， 这 些 值 定义 了 与 旧 特 权 级 相关 的 栈 的 逻 
辑 地 址 。 


如 果 故 障 已 发 生 , 用 引起 异常 的 指令 地 址 装载 cs 和 eip 寄 存疑 ,从 而 使 得 这 条 指令 
能 再 次 被 执行 。 


在 栈 中 保存 eflags、cs 及 eip 的 内 容 。 
如 果 异 常 产 生 了 一 个 硬件 出 错 码 ， 则 将 它 保 存在 栈 中 。 


装载 cs 和 eip 寄 存 器 ,其 值 分 别 是 IDT 表 中 第 i 项 门 描述 符 的 段 选 择 符 和 偏 移 量 
字段 。 这 些 值 给 出 了 中 断 或 者 异常 处 理 程序 的 第 一 条 指令 的 逻辑 地 址 。 


控制 单元 所 执行 的 最 后 一 步 就 是 跳 转 到 中 断 或 者 异常 处 理 程序 。 换 句 话说 , 处理 完 中 断 
信号 后 , 控制 单元 所 执行 的 指令 就 是 被 选中 处 理 程 序 的 第 一 条 指令 。 


中 断 或 异常 被 处 理 完 后 ， 相 应 的 处 理 程序 必须 产生 一 条 iret 指令 ， 把 控制 权 转 交 给 被 
中 断 的 进程 ， 这 将 迫使 控制 单元 : 


1 . 


用 保存 在 栈 中 的 值 装载 cs、eip 或 eflags 寄 存 器 。 如果 一 个 硬件 出 错 码 曾 被 压 人 人 栈 
中 ， 并且 在 eip 内 容 的 上 面 ， 那么 ， 执 行 iret 指令 前 必须 先 弹 出 这 个 硬件 出 错 码 。 
检查 处 理 程序 的 CPL 是 否 等 于 cs 中 最 低 两 位 的 值 (这 意味 着 被 中 断 的 进程 与 处 理 
程序 运行 在 同一 特权 级 )。 如 果 是 ，iret 终止 执行 否则 ， 转 人 下 一 步 。 
从 栈 中 装载 ss 和 esp 寄存器， 因此 ， 返 回 到 与 旧 特 权 级 相关 的 栈 。 

检查 ds、es、fs 及 gs 有 ° 段 寄存 器 的 内 容 ， 如 果 其 中 一 个 寄存 器 包含 的 选择 符 是 一 
个 段 描述 符 , 并 且 其 DPL 值 小 于 CPL, 那么 , 清 相应 的 段 寄 存 器 。 控 制 单元 这 人 么 做 
是 为 了 禁止 用 户 态 的 程序 (CPL=3) 利用 内 核 以 前 所 用 的 段 寄存 器 (DPL=0)。 如 果 
不 和 清 这 些 寄存 器 ， 怀 有 恶意 的 用 户 态 程序 就 可 能 利用 它们 来 访问 内 核 地 址 空间 。 


中 断 和 异常 处 理 程序 的 藤 套 执行 


每 个 中 断 或 异常 都 会 引起 一 个 内 核 控制 路 径 , 或 者 说 代表 当前 进程 在 内 核 态 执行 单独 的 


TO 2 


指令 序列 。 例 如 : 当 LO 设备 发 出 一 个 中 断 时 ， 相 应 的 内 核 控制 路 径 的 第 一 部 分 指令 就 
是 那些 把 寄存 器 的 内 容 保存 在 内 核 堆栈 的 指令 ,而 最 后 一 部 分 指令 就 是 恢复 寄存 器 内 容 
并 让 CPU 返回 到 用 户 态 的 那些 指令 。 


内 核 控制 路 径 可 以 任意 储 套 : 一 个 中 断 处 理 程序 可 以 被 另 一 个 中 断 处 理 程序 “中 断 ”， 
此 引起 内 核 控制 路 径 的 供 套 执行 ， 如 图 4-3 所 示 。 其 结果 是 ， 对 中 断 进行 处 理 的 内 核 控 
制 路 径 , 其 最 后 一 部 分 指令 并 不 总 能 使 当前 进程 返回 到 用 户 态 : 如 果 傣 套 深 度 大 于 1, 这 
些 指令 将 执行 上 次 被 打 断 的 内 核 控制 路 径 ， 此 时 的 CPU 依然 运行 在 内 核 态 。 





4-3: 内 核 控制 路 径 赃 大 执行 的 例子 


允许 内 核 控制 路 径 嵌 套 执 行 必 须 付 出 代价 , 那 就 是 中 断 处 理 程序 必须 永 不 阻塞 , 换 句 话 
说 , 中 断 处 理 程序 运行 期 间 不 能 发 生 进程 切换 。 事 实 上 ,和 储 套 的 内 核 控制 路 径 恢复 执行 
时 需要 的 所 有 数据 都 存放 在 内 核 态 堆栈 中 ， 这 个 栈 毫 无 疑义 的 属于 当前 进程 。 


假定 内 核 没有 bug， 那么 大 多 数 异 常 就 只 在 CPU 处 于 用 户 态 时 发 生 。 事 实 上 ， 蜡 常 要么 
是 由 编程 错误 引起 ， 要 么 是 由 调试 程序 触发 。 然 而 ，“Page Fault 〈 缺 页 ) ”异常 发 生 在 
内 核 态 。 这 发 生 在 当 进 程 试 图 对 属于 其 地 址 空间 的 页 进行 寻 址 ， 而 该 页 现在 不 在 RAM 
中 时 。 当 处 理 这 样 的 一 个 异常 时 , 内 核 可 以 挂 起 当前 进程 ,并 用 另 一 个 进程 代替 它 , 直 
到 请 求 的 页 可 以 使 用 为 止 。 只 要 被 挂 起 的 进程 又 获得 处 理 器 , 处 理 缺 页 异常 的 内 核 控制 
路 径 就 恢复 执行 。 


因为 “Page Fault” 异 常 处 理 程序 从 不 进一步 引起 异常 ， 所 以 与 异常 相关 的 至 多 两 个 内 
核 控制 路 径 《 第 一 个 由 系统 调用 引起 ， 第 二 个 由 缺 页 引起 ) 会 堆肥 在 一 起 , 一 个 在 另 一 
人 


与 异常 形成 对 照 的 是 ， 尽管 处 理 中 断 的 内 核 控制 路 径 代 表 当 前 进程 运行 , 但 由 1/0 设备 
产生 的 中 断 并 不 引用 当前 进程 的 专 有 数据 结构 。 事 实 上 ， 当 一 个 给 定 的 中 断 发 生 时 ,要 
预测 哪个 进程 将 会 运行 是 不 可 能 的 。 





穿 硼 处 理 程序 从 不 失 在 内 核 坊 能 角 发 的 只 一 异常 就 是 刚刚 描述 的 缺 页 
异常 。 但 是 ， 中 断 处 理 程 序 从 不 执行 可 以 导致 缺 页 (因此 意味 着 进程 切换 ) 的 操作 。 


基于 以 下 两 个 主要 原因 ，Linux 交错 执行 内 核 控制 路 径 ; 


*。 “为 了 提高 可 编程 中 断 控 制 器 和 设备 控制 普 的 吞吐 量 。 假 定 设备 控制 器 在 一 条 IRQ 线 
上 产生 了 一 个 信号 ,PIC 把 这 个 信号 转换 成 一 个 外 部 中 断 ， 然 后 PIC 和 设备 控制 器 
保持 阻塞 ， 一 直到 PIC 从 CPU 处 接收 到 一 条 应 答 信息 。 由 于 内 核 控制 路 径 的 交错 
执行 ， 内 核 即 使 正在 处 理 前 一 个 中 断 ， 也 能 发 送 应 答 。 


。 “为 了 实现 一 种 没有 优先 级 的 中 断 模型 .因为 每 个 中 断 处 理 程序 都 可 以 被 另 一 个 中 断 
处 理 程 序 延缓 , 因此 , 在 硬件 设备 之 间 没 必要 建立 预定 义 优先 级 。 这 就 简化 了 内 核 
代码 ， 提 高 了 内 核 的 可 移植 性 。 


在 多 处 理 器 系统 上 ， 几 个 内 核 控 制 路 径 可 以 并 发 执行 。 此 外 , 与 异常 相关 的 内 核 控 制 路 
径 可 以 开始 在 一 个 CPU 上 执行 ， 并 且 由 于 进程 切换 而 移 往 另 一 个 CPU 上 执行 。 


初始 化 中 断 描 述 符 表 
现在 , 我 们 知道 了 80x86 微 处 理 器 在 硬件 级 对 中 断 和 异常 做 了 些 什么 , 接 下 来 ， 我 们 可 
以 继续 描述 如 何 初始 化 中 上 断 描述 符 表 。 


内 核 启 用 中 断 以 前 ， 必 须 把 J 初始 
项 。 这 项 工作 是 在 初始 化 系统 时 完成 的 (参见 附录 一 )。 


int 指令 允许 用 户 态 进程 发 出 一 个 中 断 信 号 ， 其 值 可 以 是 0~ 255 的 任意 一 个 向 量 。 因 
此 ， 为 了 防止 用 户 通过 int 指令 模拟 非法 的 中 断 和 异常 ，IDT 的 初始 化 必须 非常 小 心 。 
这 可 以 通过 把 中 断 或 陷阱 门 描述 符 的 DPL 字段 设置 成 0 来 实现 。 如 果 进 程 试图 发 出 其 中 
的 一 个 中 断 信和 号， 控制 单 元 将 检查 出 CPL 的 值 与 DPL 字段 有 冲突 ， 并且 产生 一 个 


“General protection” 异常 。 





守 存 路， 并 初始 化 表 中 的 每 一 


然而 , 在 少数 情况 下 ， 用户 态 进程 必须 能 发 出 一 个 编程 异常 。 为 此 ， 只 要 把 中 断 或 陷阱 
1 描述 符 的 DPL 字段 设置 成 3， 即 特权 级 尽 可 能 一 样 高 就 是 够 了 。 


现在 ， 让 我 们 来 看 一 下 Linux 是 如 何 实 现 这 种 策略 的 。 


中 断 和 腊 党 . 49 





中 断 门 、 陷 阱 门 及 系统 门 

与 在 前 面 “ 中 断 描 述 符 表 ”中 所 提 到 的 一 样 ，Intel 提供 了 三 种 类 型 的 中 断 描述 符 : 任务 
门 、 中断 门 及 陷阱 门 描述 符 。Linux 使 用 与 Intel 稍 有 不 同 的 细 目 分 类 和 术语 ,把 它们 如 
下 进行 分 类 : 


中 断 门 (interrupit gate) 
用 户 态 的 进程 不 能 访问 的 一 个 Intel 中 断 门 ( 门 的 DPL 字段 为 0)。 所 有 的 Linux 中 
断 处 理 程 序 都 通过 中 汤 门 激活 ， 并 全 部 限制 在 内 核 态 。 

系统 | ] (syslem gate) 
用 户 态 的 进程 可 以 访问 的 一 个 Intel 陷阱 门 〈 门 的 DPL 字段 为 3)。 通 过 系统 门 来 激 
活 三 个 Linux 异常 处 理 程序 ， 它们 的 向 量 是 4, 5 及 128， 因 此 ,在 用 户 态 下 ， 可 以 
发 布 into、bound 及 int SOx80 三 条 汇编 语言 指令 。 


承 统 中 断 门 (svstem interrupi gate) 
能 够 被 用 户 态 进程 访问 的 Intel 中 断 门 ( 门 的 DPL 字段 为 3)。 与 向 量 3 相 关 的 异常 
处 理 程序 是 由 系统 中 断 门 激活 的 ， 因 此 ， 在 用 户 态 可 以 使 用 汇编 语言 指令 int3。 
户 财 门 {trap gate) 
用 户 态 的 进程 不 能 访问 的 一 个 Intel 陷阱 门 ( 门 的 DPL 字段 为 0)。 大 部 分 Linux 异 
常 处 理 程序 都 通过 陷阱 门 来 沿 活 。 
企 务 门 (task gate) 
不 能 被 用 户 术 进程 访问 的 Intel 任 务 门 ( 门 的 DPL 字 段 为 0)。Linux 对 "Double fault" 
异常 的 处 理 程序 是 由 任务 门 激 活 的 。 


下 列 体系 结构 相关 的 函数 用 来 在 IDT 中 插入 门 : 


set_intr gate(n,addr) 
在 IDT 的 第 n 个 表 项 插入 一 个 中 断 门 。 门 中 的 段 选择 符 设置 成 内 核 代码 的 段 选择 
符 ， 偏 移 量 设置 为 中 断 处 理 程 序 的 地 址 aaar ，DPL 字段 设置 为 0。 

set_system gate(n,addr) 
在 IDT 的 第 nn 个 表 项 插入 一 个 陷阱 门 。 门 中 的 段 选择 符 设置 成 内 核 代码 的 段 选择 
符 ， 偏 移 量 设置 为 异常 处 理 程序 的 地 址 adaar ，DPL 字段 设置 为 3。 

set system_intr gatel(n,adadr) 
在 IDT 的 第 rn 个 表 项 插入 一 个 中 断 门 。 门 中 的 段 选择 符 设置 成 内 核 代码 的 段 选择 
符 ， 偏 移 量 设置 为 异常 处 理 程序 的 地 址 addr，DPL 字段 设置 为 3。 

set_ trap_gate(n,addr) 


与 前 一 个 函数 类 似 ， 只 不 过 DPL 的 字段 设置 成 0。 
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set task gate (n,gat) 
在 IDT 的 第 ”个 表 项 中 插入 一 个 中 断 门 。 门 中 的 段 选 择 符 中 存放 一 个 TSS 的 全 局 摘 述 
符 表 的 指针 , 该 TSS 中 包含 要 被 激活 的 函数 。 偏 移 量 设置 为 0， 而 DPL 字 段 设 置 为 3。 


IDT 的 初步 初始 化 

当 计 算 机 还 运行 在 实 模式 时 ，IDT 被 初始 化 并 由 BIOS 例 程 使 用 。 然 而 ， 一 且 Linux 接 
管 , IDT 就 被 称 到 RAM 的 另 一 个 区 域 , 并 进行 第 二 次 初始 化 , 因为 Linux 没有 利用 任何 
BIOS 例 程 (参见 附录 一 )。 

IDT 存放 在 iat_table 表 中 ， 有 256 个 表 项 。6 字 节 的 idt_descr 变 量 指定 了 IDT 的 大 小 
和 它 的 地 址 ， 只 有 当 内 核 用 1iat 汇编 指令 初始 化 iatr 寄 存 器 时 才 用 到 这 个 变量 ( 注 6)。 


在 内 核 初始 化 过 程 中 , setup_idt (} 汇 编 语言 函数 用 同一 个 中 断 门 ( 即 指向 ijgnore_int () 
中 断 处 理 程序 ) 来 填充 所 有 这 256 个 idt_table 表 项 : 


setup_idt: 
lea lgnore_int, $Yedx 
movl Ss{(_ _KERNEL CS << 16), Seax 
mov Sdx, Sa /:* gelector = Ox0U1N0 = cs */ 


movw SOxBe0D, Sdqx 外 二 interrupt gate, dpl=0, present */ 
lea idt_table, %®edi 
moOw S256, Secx 
rp_sidt: 
moWv]】 第 XK ， (第 记 届 i】 
movl Vedx, 4(%edi) 
addl $8, Sedi 
dec $ecx 
Jne rp_sidt 
ret 


用 汇编 语言 写成 的 ignore_int () 中 断 处 理 程 序 ， 可 以 看 作 一 个 空 的 处 理 程序 ， 它 执行 
下 列 动作 ， 

1， 在 栈 中 保存 一 些 寄存 器 的 内 容 。 

2. ”调用 printk() 函 数 打 印 “Unknown interrupt” 系统 消息 。 

3.、 ”从 栈 恢复 寄存 器 的 内 容 。 

4. ”执行 iret 指令 以 恢复 被 中 断 的 程序 。 


注 6: 一些 旧 的 Pentium 模式 有 声名 狼 粳 的 “f00f”bug， 能 让 用 户 态 程序 并 结 系 统 。 当 Linux 
在 这 样 的 CPU 上 执行 时 , 就 使 用 工作 区 , 而 该 工作 区 基于 用 指向 实际 IDT 的 只 读 固 定 映 
射线 性 地 址 初始 化 dtr 害 丰 器 (参见 第 二 章 “ 固 定 映射 的 线性 地 址 ”一 节 ) 。 


中 断 和 玉芝 到 


ignore_int() 处 理 程序 应 该 从 不 被 执行 ， 在 控制 台 或 日 志文 件 中 出 现 的 “Unknown 
interrupt” 宵 息 标志 着 要 么 是 出 现 了 一 个 硬件 的 问题 (一 个 IO 设备 正在 产生 没有 预料 到 
的 中 断 )， 要 么 就 是 出 现 了 一 个 内 核 的 问题 (一 个 中 断 或 异常 未 被 适当 地 处 理 )。 


紧 接 着 这 个 预 初始 化 , 内 核 将 在 IDT 中 进行 第 二 遍 初 始 化 , 用 有 意义 的 陷阱 和 中 断 处 理 
程序 替换 这 个 空 处 理 程 序 , 一旦 这 个 过 程 完成 , 对 控制 单元 产生 的 每 个 不 同 的 异常 ,IDT 
都 有 一 个 专门 的 陷阱 或 系统 门 ， 而 对 于 可 编程 中 断 控制 器 确认 的 每 一 个 IRQ,IDT 都 将 
包含 一 个 专门 的 中 断 门 。 


在 接 下 来 的 两 节 中 ， 将 分 别针 对 异常 和 中 断 来 详细 地 说 明 这 个 工作 是 如 何 完成 的 。 


人 


本 鱼 释 为 出 错 条 件 . 当 其 中 一 个 异常 发 生 时 ,内核 就 向 

引起 异常 的 进程 发 送 一 个 信号 向 它 通知 一 个 反 营 条件， 例如 ， 如 果 进 程 执行 了 一 个 被 0 

除 的 操作 ，CPU 就 产生 一 个 “Divide error” 异 常 ， 并 由 相应 的 异常 处 理 程 序 向 当前 进 

pe 个 SIGFPE 信 和 号, 这 个 进程 将 采取 若干 必要 的 步骤 来 (从 出 错 中 ) 恢复 或 者 中 
运行 (如果 没 有 为 这 个 信号 设置 处 理 程序 的 话 )。 


但 是 , 在 两 种 情况 下 ，Linux 利用 CPU 异常 更 有 效 地 管理 硬件 资源 。 第 一 种 情况 已 经 在 
第 三 章 “ 保 存 和 加 载 FPU、MMX 及 XMM 寄存 器 ”一 节 描 述 过 ,“Device not availeble” 
异常 与 cr0 寄 存 器 的 TS 标志 一 起 用 来 把 新 值 装 入 浮 点 寄存 器 。 第 二 种 情况 指 的 是 “Page 
Fault” 异 常 , 该 异常 推迟 给 进程 分 配 新 的 页 框 ， 直到 不 能 再 推迟 为 止 。 相应 的 处 理 程序 
比较 复杂 ,因为 异常 可 能 表示 一 个 错误 条 件 , 也 可 能 不 表示 一 个 错误 条 件 (参见 第 九 章 
“ 缺 页 异常 处 理 程序 ”一 节 )。 


异常 处 理 程 序 有 一 个 标准 的 结构 ， 由 以 下 三 部 分 组 成 : 

1. ”在 内 核 堆 栈 中 保存 大 多 数 寄存 器 的 内 容 (这 部 分 用 汇编 语言 实现 )。 
2. 用 高 级 的 C 函数 处 理 异 常 。 

3. ”通过 ret_from_exception() 函数 从 异常 处 理 程 序 退 出 。 





为 了 利用 异常 , 必须 对 IDT 进 行 适当 的 初始 化 , 使 得 每 个 被 确认 的 异常 都 有 一 个 异常 处 
理 程 序 。trap_init (}) 函 数 的 工作 是 将 一 些 最 终 值 ( 即 处 理 异 常 的 函数 ) 插入 到 IDT 的 
非 屏 项 中 断 及 异常 表 项 中 。 这 是 由 销 数 set_trap_gate()、 set_intr_gate().、 
set_system gate()、set_system intr gate(}) 和 set_task_gate({}) 来 完成 的 。 


set_trap _ gate (0,&divide_error); 
set_trap_gatell,&debug); 
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set_intr_gate{l2,&nmil):; 

set_svstem_intr_ gatet3,&int3):; 
Set_SsySstem_gate(4,&overt low); 

set system gate{(,&kbounds}): 
set_trap_gate(e,&invalid op}; 
set_trap_gate{li,&device not avallablel; 
set_ task gateld,31); 

set_trap gate(9,&coprocessor segment_overrun});} 
set _ trap _gate(llo,&invalid TSS):; 
Set_trap_gatelll,&segment not presentl: 
set _ trap _gatell2,kstack_segment}); 
Set_trap_gatel(l3,&general_protection):; 
set_intr gatelld,gpage_fault}): 

set_trap gate(l6,&Ccoprocessor_ error): 
set_trap _ gate(l’,&alignment check): 
set_trap gatellB,&machine check}): 
Set_trap. gate(ll9,&simd coprocessor_error});} 
set_ system gatel!l28,&5system call}): 


由 于 “Double fault” 异 常 表 示 内 核 有 严重 的 非法 操作 ， 其 处 理 是 通过 任务 门 而 不 是 陷 
阱 门 或 系统 门 来 完成 的 , 因而 , 试图 显示 寄存 强 值 的 异常 处 理 程序 并 不 确定 esp 寄 存 器 
的 值 是 否 正 确 。 产 生 这 种 异常 的 时 候 ，CPU 取出 存 帮 在 IDT 第 8 项 中 的 任务 门 描述 符 ， 
该 描述 符 指 向 存放 在 GDT 表 第 32 项 中 的 TSS 段 摘 述 符 。 然 后 ,CPU 用 TSS 段 中 的 相关 
值 装载 eip 和 esp 寄 存 器 , 结果 是 : 处 理 器 在 自己 的 私有 栈 上 执行 doublefault_fn() 
异常 处 理 函 数 。 


现在 我 们 要 考察 一 旦 一 个 典型 的 异常 处 理 程序 被 调用 ， 它 会 做 些 什 么 。 由 于 篇 幅 所 限 ， 
我 们 对 异常 处 理 仅 做 粗略 的 描述 ， 尤 其 是 我 们 不 涉及 下 面 的 内 容 : 

1. 由 一 些 处 理 录 数 发 送 给 用 户 态 进程 的 信和 号码 ( 见 第 十 一 章 中 的 表 11-8)。 

2， 内核 运行 在 MS-DOS 虚拟 模式 (VM86 模式 ) 时 产生 的 异常 ,它们 的 处 理 是 不 同 的 。 
3. “Debug” 异 常 。 


为 异常 处 理 程序 保存 寄存 器 的 值 


让 我 们 用 handler_name 来 表示 一 个 通用 的 异常 处 理 程 序 的 名 字 。 (所 有 异常 处 理 程序 的 实 
际 名 宇都 出 现在 前 一 部 分 的 宏 列 表 中 。) 每 一 个 异常 处 理 程序 都 以 下 列 的 汇编 指令 开始 : 
handler_name: 
pushl $0 /* only for some exceptions */ 


pushl $do_nandler_name 
Jmp error_code 


当 异 常 发 生 时 , 如 果 控 制 单元 没有 自动 地 把 一 个 硬件 出 错 代码 插入 到 栈 中 , 相应 的 汇编 
语言 片段 会 包含 一 条 pushl $0 指令 ,在 栈 中 垫上 一 个 空 值 。 然 后 ， 把 高 级 C 函数 的 地 
址 压 进 栈 中 ， 它 的 名 字 由 异常 处 理 程序 名 与 ao_ 前 组 组 成 。 
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标号 为 error_code 的 汇编 语言 片段 对 所 有 的 异常 处 理 程序 都 是 相同 的 ， 除了 “Device 

not available” 这 一 个 异常 (参见 第 三 章 的 “保存 和 加 载 FPU、MMX 及 XMM 寄存 器 ” 

一 节 )。 这 段 代码 执行 以 下 步骤 : 

1. 把 高 级 C 函数 可 能 用 到 的 寄存 器 保存 在 栈 中 。 

2. 产生 一 条 cld 指令 来 清 eflags 的 方向 标志 DF， 以 确保 调用 字符 串 指 令 ( 注 7) 
了 时 会 自动 增加 edi 和 esi 寄存 器 的 值 。 

3. 把 栈 中 位 于 esp+36 处 的 硬件 出 错 码 拷贝 到 eax 中 , 给 栈 中 这 一 位 置 存 上 值 -1, 正 


如 我 们 将 在 第 十 一 章 的 “系统 调用 的 重新 执行 ”一 节 中 所 看 到 的 那样 , 这 个 值 用 来 
把 0x80 异常 与 其 他 异常 隔离 开 。 | 

4. 把 保存 在 栈 中 esp+32 位 置 的 ao_handler_name() 高 级 C 函 数 的 地 址 装 人 edi 寄 
存 器 中 ， 然 后 ， 在 栈 的 这 个 位 置 写 人 es 的 值 。 

5. 把 内 核 栈 的 当前 栈 顶 拷贝 到 eax 寄 存 器 。 这 个 地 址 表示 内 存单 元 的 地 址 , 在 这 个 单 
元 中 存放 的 是 第 1 步 所 保存 的 最 后 一 个 寄存 器 的 值 。 

6. ”把 用 户 数 据 段 的 选择 符 描 贝 到 ds 和 es 寄存 器 中 。 

7. 调用 地 址 在 edi 中 的 高 级 C 函数 。 

被 调用 的 图 数 从 eax 和 edx 寄 存 器 而 不 是 从 栈 中 接收 参数 。 我 们 已 经 遇见 过 一 个 从 CPU 

寄存 器 获取 参数 的 函数 _switch_ro() ， 在 第 三 章 “ 执 行进 程 切换 ”一 节 我 们 讨论 过 

这 个 国 数 。 


进入 和 离开 异常 处 理 程 序 


如 前 所 述 , 执行 异常 处 理 程 序 的 C 函 数 名 总 是 由 do_ 前 级 和 处 理 程序 名 组 成 。 其 中 的 大 
部 分 国 数 把 硬件 出 错 码 和 异常 向 量 保存 在 当前 进程 的 描述 符 中 , 然后 , 向 当前 进程 发 送 
一 个 适当 的 信号 。 用 代码 描述 如 下 : 

current-»>thread.error code = errgr_ code:; 


current->thread.trap_no = Vector; 
force sig{(si9g_ number, current}: 


异常 处 理 程 序 刚 一 终止 ， 当 前 进程 就 关注 这 个 信和 号。 读 信 号 要 么 在 用 户 态 由 进程 自己 的 
信号 处 理 程 序 (如 果 存 在 的 话 ) 来 处 理 ， 要 么 由 内 核 来 处 理 。 在 后 面 这 种 情况 下 ， 内 核 
一 般 会 杀 死 这 个 进程 (参见 第 十 一 章 )。 异 常 处 理 程序 发 送 的 信号 已 在 表 4-1 中 列 出 。 


注 了 : 一 条 诸如 rep;movsb 这 样 的 汇编 语言 “字符 囊 指 令 ” 能 鲍 作 用 于 整个 〈 字 竺 串 ) 块 。 
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异常 处 理 程序 总 是 检查 异常 是 发 生 在 用 户 态 还 是 在 内 核 态 , 在 后 一 种 情况 下 , 还 要 检查 
是 否 由 系统 调用 的 无 效 参 数 引起 。 我 们 将 在 第 十 章 “ 动 态 地 址 检查 : 修正 代码 ”一 节 描 
述 内 核 如 何 防御 自己 受 无 效 的 系统 调用 参数 攻击 ,出 现在 内 核 态 的 任何 其 他 异常 都 是 由 
于 内 核 的 bug 引起 的 。 在 这 种 情况 下 ， 异常 处 理 程序 认为 是 内 核 行为 失常 了 。 为 了 以 免 . 
硬盘 上 的 数据 崩 注 ， 处 理 程序 调用 di e () 函数 ， 该 函数 在 控制 台 上 打印 出 所 有 CPU 罕 
存 器 的 内 容 (这 种 转 储 就 叫做 kernel oops) ,并 调用 do_exit 进程 (参见 
第 三 章 “ 进 程 终 止 ” 一 节 )。 


当 执行 异常 处 理 的 C 函 数 终止 时 ,程序 执行 一 条 jmp 指 令 以 跳 转 到 ret_from_exception() 
函数 。 这 个 函数 将 在 后 面 的 “从 中 断 和 异常 返回 ”一 节 中 进行 描述 。 


中 断 处 理 


正如 前 面 解 释 的 那样 ,内 核 只 要 给 引起 异常 的 进程 发 送 一 个 Unix 信 号 就 能 处 理 大 多 数 异 
常 。 因此， 要 采取 的 行动 被 延迟 ， 直 到 进程 接收 到 这 个 信号 。 所 以 ,内 核能 很 快 地 处 理 
异常 。 


这 种 方法 并 不 适合 中 断 ， 因 为 经 常会 出 现 一 个 进程 (例如 ， 一 个 请 求 数 据 传输 的 进程 ) 
被 挂 起 好 久 后 中 断 才 到 达 的 情况 ， 因此, 一 个 完全 无 关 的 进程 可 能 正在 运行 。 所 以 , 给 
当前 进程 发 送 一 个 Unix 信和 号 是 毫 无 意义 的 。 


中 断 处 理 依赖 于 中 断 类 型 。 就 我 们 的 目的 而 言 ， 我 们 将 讨论 三 种 主要 的 中 断 类 型 : 


LO 中 肠 
某 些 LO 设备 需要 关注 ， 相 应 的 中 断 处 理 程 序 必须 查询 设备 以 确定 适当 的 操作 过 
程 。 我 们 在 后 面 “IO 中 断 处 理 ” 一 节 将 描述 这 种 中 断 。 

肝 锅 中断 
某 种 时 钟 (或 者 是 一 个 本 地 APIC 时 钟 , 或 者 是 一 个 外 部 时 钟 ) 产生 一 个 中 断 ， 这 
种 中 断 告 诉 内 核 一 个 固定 的 时 间 间 隔 已 经 过 去 。 这 些 中 断 大 部 分 是 作为 IO 中 断 来 
处 理 的 ， 我 们 将 在 第 六 章 讨论 时 钟 中 断 的 具体 特征 。 

处 理 辟 间 中 汤 
多 处 理 器 系统 中 一 个 CPU 对 另 一 个 CPU 发 出 一 个 中 断 。 我 们 在 后 面 “处 理 器 间 中 
断 处 理 ” 一 节 将 讨论 这 种 中 断 。 





MO 中 断 处 理 
一 般 而 言 ，1/O 中 断 处 理 程序 必须 足够 灵活 以 给 多 个 设备 同时 提供 服务 。 例 如 在 PCI 总 


ee 


线 的 体系 结构 中 , 几 个 设备 可 以 共享 同一 个 IRQ 线 。 这 就 意味 着 仅仅 中 断 向 量 不 能 说 明 
所 有 问题 。 在 表 4-3 所 示 的 例子 中 , 同一 个 向 量 43 既 分 配给 USB 端口 ， 也 分 配给 声卡 。 
然而 ， 在 老式 PC 体系 结构 ( 像 ISA) 中 发 现 的 一 些 硬件 设备 ， 当 它们 的 IRQ 与 其 他 设 
备 共享 了 时， 就 不 能 可 靠 地 运转 。 


中 断 处 理 程 序 的 灵活 性 是 以 两 种 不 同 的 方式 实现 的 ， 讨 论 如 下 : 


IRQ 共 训 
中 断 处 理 程 序 执 行 和 多 个 中 断 服务 例 程 (interrupi service routine，ISR)。 每 个 ISR 
是 一 个 与 单独 设备 (共享 IRQ 线 ) 相关 的 函数 。 因为 不 可 能 预先 知道 哪个 特定 的 设 
备 产生 IRQ， 因 此 ,每 个 ISR 都 被 执行 ， 以 验证 它 的 设备 是 否 需 要 关注 ， 如 果 是 ， 
当 设备 产生 中 断 时 ， 就 执行 需要 执行 的 所 有 操作 。 


IRQ 动态 分 配 
一 条 IRQ 线 在 可 能 的 最 后 时 刻 才 与 一 个 设备 驱动 程序 相关 联 ， 例如， 软盘 设备 的 
IRQ 线 只 有 在 用 户 访问 软盘 设备 时 才 被 分 配 。 这 样 ， 即 使 几 个 硬件 设备 并 不 共享 
IRQ 线 , 同一 个 IRQ 同 量 也 可 以 由 这 几 个 设备 在 不 同时 刻 使 用 ( 见 本 节 最 后 一 部 分 
的 讨论 )。 


当 一 个 中 断 发 生 时 , 并 不 是 所 有 的 操作 都 具有 相同 的 急迫 性 。 事实 上 ，, 把 所 有 的 操作 都 
放 进 中 断 处 理 程 序 本 身 并 不 合适 。 需 要 时 间 长 的 、 非 重要 的 操作 应 读 推 后 , 因为 当 一 个 
中 断 处 理 程序 正在 运行 时 ， 相 应 的 IRQ 线 上 发 出 的 信号 就 被 暂时 忽略 。 更 重要 的 是 ,中 
断 处 理 程 序 是 代表 进程 执行 的 , 它 所 代表 的 进程 必须 总 处 于 TASK_RUNNING 状 态 , 否则 ， 
就 可 能 出 现 系 统 僵 死 情形 。 因 此 ， 中 断 处 理 程序 不 能 执行 任何 阻塞 过 程 ， 如 磁盘 IO 操 
作 。 因 此 ，Linux 把 紧 随 中 断 要 执行 的 操作 分 为 三 类 ; 


紧 龟 的 《Crirical) 
这 样 的 操作 诸如 : 对 PIC 应 答 中 断 , 对 PIC 或 设备 控制 器 重 编程 , 或 者 修改 由 设备 
和 处 理 跨 同时 访问 的 数据 结构 。 这 些 都 能 被 很 快 地 执行 ,而 之 所 以 说 它们 是 紧急 的 
是 因为 它们 必须 被 尽快 地 执行 。 紧 急 操 作 要 在 一 个 中 断 处 理 程序 内 立即 执行 ,而且 
是 在 禁止 可 屏蔽 中 断 的 情况 下 。 

非 紧 合 移 (Noncritical) 
这 样 的 操作 诸如 : 修改 那些 只 有 处 理 器 才 会 访问 的 数据 结构 (例如 , 按 下 一 个 键 后 
读 扫 描 码 )。 这 些 操作 也 要 很 快 地 完成 ， 因 此 ， 它 们 由 中 断 处 理 程序 立即 执行 ,但 
必须 是 在 开 中 断 的 情况 下 。 

工 紧 鳃 可 延迟 的 《Worcrilical deferrable) 
这 样 的 操作 诸如 : 把 缓冲 区 的 内 容 拷贝 到 某 个 进程 的 地 址 空间 (例如 , 把 键盘 行 缓 
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冲 区 的 内 容 发 送 到 终端 处 理 程序 进程 ) 。 这 些 操作 可 能 被 延迟 较 长 的 时 间 间 隔 而 不 
影响 内 核 操作 , 有 兴趣 的 进程 将 会 等 待 数 据 。 非 紧急 可 延迟 的 操作 由 独立 的 函数 来 
执行 ， 我 们 将 在 “ 软 中 断 及 tasklet” 一 节 讨 论 。 


不 管 引 起 中 断 的 电路 种 类 如 何 ， 所 有 的 IO 中 断 处 理 程序 都 执行 四 个 相同 的 基本 操作 : 
1. 在 内 核 态 堆栈 中 保存 IRQ 的 值 和 寄存 器 的 内 容 。 

2. 为 正在 给 IRQ 线 服务 的 PIC 发 送 一 个 应 答 ， 这 将 允许 PIC 进一步 发 出 中 断 。 

3. 执行 共享 这 个 JIRQ 的 所 有 设备 的 中 断 服务 例 程 (ISR ) 。 

4， 中 到 ret_from_intr(}) 的 地 址 后 终止 ，。 


当中 断 发 生 时 ， 需 要 用 几 个 摘 述 符 来 表示 IRQ 线 的 状态 和 需要 执行 的 国 数 。 图 4-4 以 示 
意图 的 方式 展示 了 处 理 一 个 中 断 的 硬件 电路 和 软件 函数 。 下 面 儿 市 会 讨论 这 些 函 数 。 
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中 断 问 量 
如 表 4-2 所 示 , 物理 IRQ 可 以 分 配给 32~238 范围 内 的 任何 向 量 。 不 过 ，Linux 使 用 向 量 
128 实现 系统 调用 。 
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IBM PC 兼容 的 体系 结构 要 求 ， 一 些 设备 必须 被 静态 地 连接 到 指定 的 IRQ 线 。 尤 其 是 : 


硬 


间隔 定时 设备 必须 连 到 IRQ0 线 (参见 第 六 章 ) 。 

从 8259A PIC 必须 与 JIRQ2 线 相连 (尽管 现在 有 了 更 高 级 的 PIC，Linux 还 是 支持 
8259A 风格 的 PIC ) 。 

必须 把 外 部 数学 协 处 理 器 连接 到 IRQ13 线 (尽管 最 近 的 80x86 处 理 器 不 再 使 用 这 样 
的 设备 ， 但 Linux 仍然 支持 历史 悠久 的 80386 模型 ) 。 

一 般 而 言 , 一 个 UVO 设 备 可 以 连接 到 有 限 个 IRQ 线 。( 事 实 上, 当 玩 一 个 老式 PC 时 ， 
IRQ 的 共享 是 不 可 能 的 , 由 于 IRQ 与 其 他 已 经 存在 的 硬件 设备 冲突 , 因此 你 不 可 能 
成 功 地 安装 一 个 新 卡 。) ; 


表 4-2: Linux 中 的 中 断 向 量 


问 量 范围 用 途 

0~19 (0x0 ~ 0x13) 非 屏蔽 中 断 和 异常 

20 一 31 (0x14~ Ox1f) [Intel 保留 

32~127 (0x20 ~ 0x7f) 外 部 中 断 (IRQ ) 

128 (Ox80) 用 于 系统 调用 的 可 编程 异常 (参见 第 十 章 ) 
129 一 238 (0x81 一 0xee) ”外 部 中 断 (IRQ) 

239 (Oxef) 本 地 APIC 时 钟 中 断 (参见 第 六 章 ) 

240 (0xf0) 本 地 APIC 痛 温 中 断 (在 Pentium 4 模型 中 引 人 ) 


241 一 230 (Oxf0 ~ Oxfa) 由 Linux 留 作 将 来 使 用 

231~253(0xfb ~ 0xff) 处 理 器 间 中 断 【参见 本 章 后 面 “ 处 理 器 间 中 断 处 理 ” 一 节 ) 
254 (Oxfe) 本 地 APIC 错误 中 断 〈 当 本 地 APIC 检测 到 一 个 错误 条 件 时 产生 ) 
255 (0xtD) 本 地 APIC 伪 中 断 (CPU 屏蔽 某 个 中 断 时 产生 ) 


为 IRQ 可 配置 设备 选择 一 条 线 有 三 种 方式 : 


设置 一 些 硬件 跳 接 器 ( 仅 适 用 于 旧式 设备 卡 )。 

安装 设备 时 执行 一 个 实用 程序 。 这样 的 程序 可 以 让 用 户 选 择 一 个 可 用 的 IRQ 号 ,或 
者 探测 系统 自身 以 确定 一 个 可 用 的 IRQ 号 。 

在 系统 启动 时 执行 一 个 硬件 协议 。 外 设 宣布 它们 准备 使 用 哪些 中 断 线 ， 然 后 协商 
-个 最 终 的 值 以 尽 可 能 减少 冲突 。 该 过 程 一 旦 完成 ， 每 个 中 断 处 理 程序 都 通过 访 
问 设 备 某 个 1/0 端口 的 国 数 ， 来 读 取 所 分 配 的 IRQ。 例 如 ， 遵 循 外 设 部 件 互 连 


一 ， ab 


(Peripheral Component Interconnect，PCI) 标准 的 设备 的 驱动 程序 利用 一 组 函 
数 ， 如 pci_read_config_byte() 访 问 设 备 的 配置 空间 。 


表 4-3 显示 了 设备 和 IRQ 之 间 一 种 相当 随意 的 安排 ， 你 或 许 能 在 某 个 PC 中 找到 同样 的 
排列 。 


表 4-3: 把 1RQ 分 配给 1/0 设备 的 一 个 例子 


IRQ INT 硬件 设备 

0 32 时 钟 

| 33 键盘 

2 34 PIC 级 联 

3 35 第 二 串口 

4 36 第 一 串口 

6 38 软盘 

8 40 系统 时 钟 

$0 42 网 络 接口 

11 43 USB 端口 、 声 卡 

12 44 PS/2 鼠标 

13 45 数学 协 处 理 器 

14 46 EIDE 磁盘 控制 器 的 一 级 链接 
13 47 ”EIDE 磁盘 控制 器 的 二 级 链接 


内 核 必 须 在 启用 中 断 前 发 现 IRQ 号 与 MO 设备 之 间 的 对 应 ， 否 则 ， 内核 在 不 知道 哪个 向 
量 对 应 哪个 设备 (如 SCSI 硬盘 ) 的 情况 下 ， 怎 么 能 处 理 来 自 这 个 设备 的 信号 呢 ? IRQ 
号 与 IO 设备 之 间 的 对 应 是 在 初始 化 每 个 设备 驱动 程序 时 建立 的 (参见 第 十 三 章 )。 


IRQ 数据 结构 


当 讨 论 到 入 及 状态 转换 的 复杂 操作 时 ， 首 先 了 解 关 键 数据 存放 在 什么 地 方 总 是 有 益 的 。 
因此 ， 本 市 将 解释 支持 中 断 处 理 的 数据 结构 以 及 怎样 把 它们 放 在 各 种 描述 符 中 。 图 4-5 
示意 性 地 显示 了 几 个 主要 描述 符 之 间 的 关系 , 这 些 描 述 符 表示 IRQ 线 的 状态 (该 图 没有 
显示 处 理 软 中 断 及 tasklet 所 需 的 数据 结构 ， 后 面 将 对 它们 进行 讨论 。) 


每 个 中 断 向 量 都 有 它 自 己 的 iraq_aesc 上 描述 符 , 其 字段 在 表 4-4 中 列 出 。 所 有 的 这 些 描 
述 符 组 织 在 一 起 形成 irq_desc 数组 。 
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NR_IRQS-1 


hw_irmg_controller 
nome n= 





图 4-5: IRQ 描述 符 


表 4-4: irq_desc_t 描 述 符 


字段 说 明 

handler 指向 PIC 对 象 {hw_irg_controller 描述 符 ) , 它 服 务 于 IRO 线 

handler_data 指向 PIC 方法 所 使 用 的 数据 

action 标识 当 出 现 IRQ 时 要 调用 的 中 断 服务 例 程 。 该 字段 指向 IRQ 的 
irqaction 描 述 符 链 表 的 第 一 个 元 素 ,在 本 童 后 面 将 描述 irgaction 
描述 符 。 

status 描述 IRQ 线 状态 的 一 组 标志 ( 见 表 4-5) 

depth 如 果 IRQ 线 被 沿 话 ， 则 显示 0， 如 果 IRQ 线 被 禁止 了 不 止 一 次 ， 则 
显示 一 个 正 数 

irgq_count 中 断 计数 器 ， 统 计 IRQ 线 上 发 生 中 断 的 次 数 ( 仅 在 诊断 时 使 用 ) 

irgqs_unhandled 对 在 IRQ 线 上 发 生 的 无 法 处 理 的 中 断 进 行 计 数 〈 仅 在 诊断 时 使 用 ) 

lock 用 于 串 行 访问 JIRQ 描述 符 和 PIC 的 自 旋 锁 (参见 第 五 章 ) 


如 果 一 个 中 断 内 核 没 有 处 理 ,， 那么 这 个 中 断 就 是 意外 中 断 ,， 也 就 是 说 ， 与 某 个 IRQ 线 相 
关 的 中 断 处 理 例 程 (ISR) 不 存在 ， 或 者 与 某 个 中 断 线 相关 的 所 有 例 程 都 识别 不 出 是 否 是 
自己 的 硬件 设备 发 出 的 中 断 。 通 常 ， 内 核 检查 从 IRQ 线 接收 的 意外 中 断 的 数量 ， 当 这 条 
IRQ 线 连接 的 有 故障 设备 没完 没 了 地 发 中 断 时 ， 就 禁用 这 条 IJIRQ 线 。 由 于 几 个 设备 可 能 
共享 IRQ 线 ， 内 核 不 会 在 每 检测 到 一 个 意外 中 断 时 就 立刻 禁用 IRQ 线 ， 更 合适 的 办 污 
是 : 内 核 把 中 断 和 意外 中 断 的 总 次 数 分 别 存放 在 irg_desc_t 描述 符 的 irg_count 和 
irqs_unhandled 字 段 中 , 当 第 100 000 次 中 断 产 生 时 ,如 果 意 外 中 断 的 次 数 超过 99 900， 
内 核 才 禁用 这 条 IRQ 线 ( 即 来 自 共享 IRQ 线 的 硬件 设备 的 意外 中 断 ， 比 最 近 接 收 的 
100000 次 正常 中 断 少 101 次 。) 
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描述 IRQ 线 状态 的 标志 列 在 表 4-5 中 。 
表 4-5: 描述 1RQ 线 状态 的 一 组 标志 


标志 名 描述 

IRQ _INPROGRESS IRQ 的 一 个 处 理 程 序 正在 执行 

IRQ _DISABLED 由 一 个 设备 驱动 程序 故意 地 禁用 IRQ 线 

IRQ _PENDING 一 个 IRQ 已 经 出 现在 线 上 , 它 的 出 现 也 已 对 PIC 做 出 应 答 , 但 是 
内 核 还 没有 为 它 提 供 服务 

IRQ _REPLAY IRQ 线 已 被 禁用 , 但 是 前 一 个 出 现 的 IRQ 还 没有 对 PIC 做 出 应 答 - 

IRQ _AUTODETECT 内 核 在 执行 硬件 设备 探 油 时 使 用 IRQ 线 

IRO _WAITING 内 核 在 执行 硬件 设备 探 油 时 使 用 IRQ 线 ; 此 外 ,相应 的 中 断 还 没 
有 产生 

IRQ_LEVEL 在 80x86 结构 上 没有 使 用 

IRG_ MASKED 未 使 用 

IRQ_PER_CPU 在 80x86 结构 上 没有 使 用 


irq_desc_t 描 述 符 的 depth 字 7 段 和 IRQ_DISABLED 标 志 表 示 1RQ 线 是 否 被 禁用 。 每 
次 调用 aisable_iraf) 或 disable_irq_nosync() 国 数 ，daeptn 字段 的 值 增加 ， 如 果 
depth 等 于 0， 国 数 禁用 IRQ 线 并 设置 它 的 IRO_DISABLED 标志 ( 注 8) 相反 ， 每 当 
调用 enable_irgf() 国 数 ，depth 字 段 的 值 减 少 , 如 果 depth 变 为 0， 国 数 激 活 IRQ 线 
并 清除 IRQ_DISABLED 标志 。 


在 系统 初始 化 期 间 ，init_IRQE() 函 数 把 每 个 IRQ 主 描述 符 的 status 字段 设置 成 IRQ 
_DISABLED。 此 外 ，init_IRO() 通 过 替换 由 setup_idt() 所 建立 的 中 断 门 { 见 “IDT 
的 初步 初始 化 ”一 节 ) 来 更 新 IDT。 这 是 通过 下 列 语句 实现 的 : 
for {i = 0; i < NR_IROS; i++) 
if (i+32 != 128) 
set_intr_gateti+32, interrupt [i]}: 

这 段 代 码 在 interrupt 数 组 中 找到 用 于 建立 中 断 门 的 中 断 处 理 程 序 地 址 。interrupt 数 
组 中 的 第 n 项 中 存放 IRQn 的 中 断 处 理 程序 的 地 址 ( 见 后 面 “为 中 断 处 理 程序 保存 寄存 
器 的 值 ” 一 三 )。 福 意 ; 这 里 不 包括 与 128 号 中 断 向 量 相 关 的 中 断 门 , 因为 它 用 于 系统 调 
用 的 编程 异常 。 


证 员 : 与 disable_irg_nosync() 相 反 ，disable_irg(n}) 一 直 等 特 ， 直 到 在 其 他 CPU 上 为 
IRQn 运行 的 所 有 中 断 处 理 程 序 都 完成 才 返 回 。 
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Linux 除 了 支持 本 章 前 面 已 提 到 的 8259A 芯片 外 ,也 支持 其 他 的 几 个 PIC 电 路 ,如 SMP 
IO-APIC. Intel PHX4 的 内 部 8259 PIC 及 SGI 和 的 Visual Workstation Cobalt (IO-)APIC 。 
为 了 以 统一 的 方式 处 理 所 有 这 样 的 设备 ，Linux 用 了 一 个 “PIC 对象"， 由 PIC 名 字 和 7 
个 PIC 标准 方法 组 成 。 这 种 面向 对 象 方 法 的 优点 是 ,驱动 程序 不 必 关 注 安装 在 系统 中 的 
PIC 种 类 。 每 个 驱动 程序 可 见 的 中 断 产 透明 地 连接 到 适当 的 控制 器 。 定 义 PIC 对 象 的 数 
所 结构 叫做 hw_interrupt_type (也 叫做 hw_ira_concroller)。 


为 了 简单 起 见 ， 让 我 们 假定 我 们 的 计算 机 是 有 两 片 8259A PIC 的 单 处 理 机 ， 它 提供 16 
个 标准 的 IRQ, 在 这 种 情况 下 ,有 16 个 irq_desc_t 描 述 符 , 其 中 每 个 描述 符 的 handler 
字段 指向 描述 8259A PIC 的 i8259A_irq _type 变量 。 这 个 变量 被 初始 化 为 : 


struct hw interrupt_type 18259A irg _ type = 1 
,typPename = "XT-BPIC", 


.Startup = Startup _ 8259A_irg, 
:Shutdown = shutdown 8259Aa_irq, 
-Enable = enable 8259A_ irqg, 
.disable = disable_ 8259A_irg, 
.下 己基 ET 
, EN = na_8259a irg, 


. Set _ atfinity NULL 


}; 

这 个 结构 中 的 第 一 个 字段 “XxXT-PIC” 是 PIC 的 名 字 。 接 下 来 就 是 用 于 对 PIC 编程 的 六 
个 不 同 的 函数 指针 。 前 两 个 国 数 分别 启 动 和 关闭 芯片 的 IRQ 线 。 但 是 , 在 使 用 8259A 芯 
片 的 情况 下 ,这 两 个 函数 的 作用 与 第 三 、 四 个 函数 是 一 样 的 , 第 三 、 四 个 函数 是 启用 和 
禁用 IRO 线 。mask_anda_ack_8259&1) 国 数 通过 把 适当 的 字 节 发 往 825$9A LO 端口 来 应 
答 所 接收 的 IRQ。end_8259A_irqgq{} 函 数 在 IRQ 的 中 断 处 理 程序 终止 时 被 调用 。 最 后 一 
个 set_affinity () 方法 置 为 空 : 它 用 在 多 处 理 器 系统 中 以 声明 特定 IRQ 所 在 CPU 的 
“亲和力 ”一 一 也 就 是 说 ， 那 些 CPU 被 启用 来 处 理 特 定 的 IRQ，。 


如 前 所 述 ， 多 个 设备 能 共享 一 个 单独 的 IRQ。 因此 , 内核 要 维护 多 个 irqaction 描 述 符 
( 见 图 4-5) ， 其 中 的 每 个 描述 符 涉及 一 个 特定 的 硬件 设备 和 一 个 特定 的 中 断 。 包 含 在 这 
个 描述 符 中 的 字段 如 表 4-6 所 示 ， 标 志 如 表 4-7 所 示 。 


表 4-6: irqaction 描述 符 的 字段 


宇 段 名 说 明 

handler 指向 一 个 LO 设备 的 中 断 服 务 例 程 。 这 是 区 许多 个 设备 共享 同一 IRQ 的 
关键 字段 

flags 描述 IRQ 与 MO 设备 之 间 的 关系 (参见 表 4-7) 


mask 未 使 用 
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表 4-6: irqaction 描述 符 的 字段 ( 续 ) 


字段 名 说 明 

name LO 设备 名 (通过 读 /proc/interrupts 文件 ,在 列 出 所 服务 的 1RQ 时 也 显 
示 设 备 名 ) 

dev_id LO 设备 的 私有 字段 。 典 型 情况 下 ,， 它 标识 WO 设备 本 身 (例如 , 它 可 能 
等 于 其 主 设备 号 和 次 设备 号 ;参见 第 十 三 章 中 的 “设备 文件 ”一 节 )， 
或 者 它 指向 设备 驱动 程序 的 数据 

next 指向 iraaction 描 述 符 链表 的 下 一 个 元 素 。 链 表 中 的 元 素 指 向 共享 同一 
LRQ 的 硬件 设备 

irg IRQ 线 

dir ”指向 与 IROn 相关 的 /proc/irg/n 目录 的 描述 符 














表 4-7; irqaction 描述 符 的 标志 


标志 名 说 明 
SA_INTERRUPT 处 理 程序 必须 以 禁止 中 断 执行 
SA_SHIRO 设备 允许 它 的 IRQ 线 与 其 他 设备 共享 
SA_SAMPLE_RANDOM 设备 可 以 被 看 作 是 事件 随机 的 发 生源 ， 因 此 ， 内 核 可 以 用 它 
做 随机 数 产 生 器 (用 户 可 LM /dev/random 和 /dev/urandom 
”设备 文件 中 取得 随机 数 而 访问 这 种 特征 ) 


Eee ai pe 


最 后 ，irq_stat 数组 包含 NR_CPUS 个 元 素 ， 系 统 中 的 每 个 CPU 对 应 一 个 元 素 。 每 个 
元 素 的 类 型 为 irq_cpustat_t, 该 类 型 包含 几 个 计数 器 和 内 核 记录 CPU 正 在 做 什么 的 标 
志 ( 见 表 4-8)。 

表 4-8; irq_cpustat_t 结构 的 字段 

字段 名 描述 

__Softirq pending 表示 挂 起 的 软 中 断 ( 见 本 章 后 面 “ 软 中 断 ” 一 节 )， 为 一 组 标志 
idle_timestamp CPU 变 为 空闲 的 时 间 (只 是 在 CPU 正 空闲 的 时 候 才 有 意义 ) 


__nmi_count NMI 中 断 发 生 的 次 数 
apic_timer_irqgs 本 地 APIC 时 钟 中 断 发 生 的 次 数 (参见 第 六 章 ) 
IRQ 在 多 处 理 器 系统 上 的 分 发 


Linux 遵循 对 称 多 处 理 模型 (SMP) ， 这 就 意味 着 ， 内 核 从 本 质 上 对 任何 一 个 CPU 都 不 


PE 


应 该 有 偏爱 。 因 而 ， 内 核 试图 以 轮转 的 方式 把 来 自 硬件 设备 的 IRQ 信号 在 所 有 CPU 之 
间 分 发 。 因 此 ， 所 有 CPU 服务 于 WO 中 断 的 执行 时 间 片 几乎 相同 。 


在 前 面 “ 高 级 可 编程 中 断 控制 器 ”一 节 我 们 已 提 到 ， 多 APIC 系统 有 复杂 的 机 制 在 CPU 
之 间 动 态 分 发 IRQ 信号 。 


在 系统 启动 的 过 程 中 ， 引 导 CPU 执行 setup_IO_APIC_irqgs() 函数 来 初始 化 10O APIC 
芯片 。 芯 片 的 中 断 重 定向 表 的 24 项 被 填充 ， 以 便 根 据 “最 低 优先 级 ”模式 把 来 自 LIO 硬 
件 设备 的 所 有 信号 都 传递 给 系统 中 的 每 个 CPU ( 见 前 面 “IRQ 和 中 断 ” 一 节 )。 此 外 , 在 
系统 启动 期 间 ， 所 有 的 CPU 都 执行 setup_local_APICI) 国 数 ， 该 函数 处 理 本 地 APIC 
的 初始 化 。 特 别 是 ， 每 个 芯片 的 任务 优先 级 寄存 器 (TPR) 都 初始 化 为 一 个 固定 的 值 ， 
这 就 意味 着 CPU 愿意 处 理 任何 类 型 的 IRQ 信 和 号, 而 不 管 其 优先 级 。Linux 内 核 启 动 以 后 
再 也 不 修改 这 个 值 。 


因为 所 有 的 任务 优先 级 寄存 器 都 包含 相同 的 值 ， 因 此 ， 所 有 CPU 总 是 具有 相同 的 优先 
级 。 为 了 罕 破 这 种 约束 , 正如 前 面 所 解释 的 那样 ， 多 APIC 系统 使 用 本 地 APIC 仲裁 优先 
级 寄存 器 中 的 值 。 因 为 这 样 的 值 在 每 次 中 断后 都 自动 改变 ， 因 此，IRQ 信和 号 就 公平 地 在 
所 有 CPU 之 间 分 发 ( 注 9)。 


简 而 言 之 ， 当 硬件 设备 产生 了 一 个 中 断 信 号 时 ， 多 APIC 系统 就 选择 其 中 的 一 个 CPU， 
并 把 该 信号 传递 给 相应 的 本 地 APIC, 本 地 APIC 又 依次 中 断 它 的 CPU。 这 个 事件 不 通报 
给 其 他 所 有 的 CPU 。 


所 有 这 些 都 由 硬件 神奇 地 完成 , 因此 , 多 APIC 系统 初始 化 后 无 需 内 核 费 心 。 遗 憾 的 是 在 
有 些 情况 下 , 硬件 不 能 以 公平 的 方式 在 微 处 理 器 之 间 成 功 地 分 配 中 断 (如 , 一 些 Pentium 
4 基于 对 称 多 处 理 的 主板 存在 这 种 问题 )。 因 此 , 在 必要 的 时 候 ，Linux2.6 利 用 则 做 kirgd 
的 特殊 内 核 线程 来 纠正 对 CPU 进行 的 IRQ 的 自动 分 配 。 


内 核 线程 为 多 APIC 系统 开发 了 一 种 优良 特性 ， 叫 做 CPU 的 IRQ 亲和力 : 通过 修改 
I/OAPIC 的 中 断 重 定向 表 表 项 ， 可 以 把 中 断 信和 号 发 送 到 某 个 特定 的 CPU 上 。 
set_ioapic_affinity_irq() 孙 数 用 来 实现 这 一 功能 ,该 函数 有 两 个 参数 ， 被 重 定向 
的 IRQ 向 量 和 一 个 32 位 掩 码 (表示 可 以 接收 这 个 IRQ 的 CPU)。 系 统管 理 员 通过 向 文 


注 9: 不过， 有 一 个 例外 ，Linux 通常 以 这 样 的 方式 建立 本 地 APIC 以 对 盘点 处 理 器 (focus 
Processor) 给 于 美 注 {如果 它 存 在 ) ,一 个 已 经 接收 了 某 种 类 型 IRQ 信 号 的 位 点 进程 ,只 
要 还 没有 执行 完 中 断 处 理 程序 ， 它 就 接收 所 有 同样 类 型 的 IRQ 信号 。 人 然而 ，Intel 在 
Pentium 4 模型 中 已 经 取消 了 对 和 八 点 处 理 器 的 支持 。 
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件 /proc/irqg/n/smp_affinity (n 是 中 断 向 量 ) 中 写 人 新 的 CPU 位 图 掩 码 也 可 以 改变 指定 
中 断 IRQ 的 亲和力 。 


kirqd 内 核 线 程 周 期 性 地 执行 Go_irq_balance () 国 数 ， 该 函数 跟踪 在 最 近 时 间 间 隔 内 
每 个 CPU 接收 的 中 断 次 数 。 如 果 该 函数 发 现 负荷 最 重 的 CPU 和 负荷 最 轻 的 CPU 之 间 IRQ 
负载 不 平衡 的 问题 太 严 重 ,， 它 要 么 把 IRQ 从 一 个 CPU 转移 到 另 一 个 CPU ， 要 么 让 所 有 
的 IRQ 在 所 有 CPU 之 间 “ 轮 转 ”。 


多 种 类 型 的 内 核 栈 

就 像 在 第 三 章 “ 标 识 一 个 进程 ”一 节 所 提 到 的 ， 每 个 进程 的 Ethreaa_info 描述 符 与 
thread_union 结 构 中 的 内 核 栈 紧邻 , 而 根据 内 核 编 译 时 的 选项 不 同 , thread_union 结 
构 可 能 占 一 个 页 框 或 两 个 页 框 。 如 果 thread_union 结 构 的 大 小 为 8KB,， 那 么 当前 进程 
的 内 核 栈 被 用 于 所 有 类 型 的 内 核 控制 路 径 : 异常 、 中 断 和 可 延迟 的 函数 ( 见 后面 “ 软 中 
断 及 tasklet” 一 节 )。 相 反 ,， 如 果 thread_union 结 构 的 大 小 为 4KB, 内 核 就 使 用 三 种 类 
型 的 内 核 栈 : 


。 ”异常 栈 , 用 于 处 理 异 常 (包括 系统 调用 )。 这 个 栈 包 含 在 每 个 进程 的 thread_union 
数据 结构 中 ， 因 此 对 系统 中 的 每 个 进程 ， 内 核 使 用 不 同 的 异常 栈 。 

* 硬 中 断 请 求 栈 ， 用 于 处 理 中 断 。 系 统 中 的 每 个 CPU 都 有 一 个 硬 中 断 请 求 栈 ， 而 且 
每 个 栈 占 用 一 个 单独 的 页 框 。 

*。  ， 软 中 断 请 求 栈 , 用 于 处 理 可 延迟 的 函数 ( 软 中 断 或 tasklet， 见 后面 “ 软 中 断 及 tasklet” 
rm 系统 中 的 每 个 CPU 都 有 一 个 软 中 断 请 求 栈 , 而 且 每 个 栈 占 用 一 个 单独 的 页 框 。 


所 有 的 硬 中 断 请 求 存 放 在 hardirq_stack 数组 中 ,而 所 有 的 软 中 断 请 求 存 放 在 softirqg stack 
数组 中 ， 每 个 数组 元 素 都 是 跨越 一 个 单独 页 框 的 iraq_ctx 类 型 的 联合 体 。thread_info 结 
构 存 放 在 这 个 页 的 底部 , 栈 使 用 其 余 的 内 存 空间 , 注意 每 个 栈 向 低地 址 方向 增长 。 所 以 , 硬 
中 断 请 求 栈 和 软 中 断 请 求 栈 都 与 第 三 章 “标识 一 个 进程 ”一 节 所 描述 的 异常 栈 很 相似 , 唯一 
的 区 别 是 与 每 个 栈 相连 的 thread_info 结 构 不 是 与 进程 而 是 与 CPU 相关 联 的 。 


hardirg_ctx 和 softirq_ctx 数 组 使 内 核能 快速 确定 指定 CPU 的 硬 中 断 请 求 栈 和 软 中 
断 请 求 栈 ， 它 们 包含 的 指针 分 别 指向 相应 的 irq_ctx 元 素 。 


为 中 断 处 理 程序 保存 寄存 器 的 值 


当 CPU 接收 一 个 中 断 时 ， 就 开始 执行 相应 的 中 断 处 理 程序 代码 ， 该 代码 的 地 址 存放 在 
IDT 的 相应 门 中 (参见 前 面 “中 断 和 异常 的 硬件 处 理 ” 一 市 )。 





与 其 他 上 下 文 切 换 一 样 ,需要 保存 寄存 器 这 一 点 给 内 核 开 发 者 留 下 有 点 杂乱 的 编码 工作 ， 
因为 寄存 器 的 保存 和 恢复 必须 用 汇编 语言 代码 , 但 是 , 在 这 些 操 作 内 部 ， 又 期 望 处 理 器 
从 C 国 数 调 用 和 返回 。 在 这 一 节 ， 我 们 将 描述 处 理 寄存 器 的 汇编 语言 任务 ， 而 下 一 节 ， 
我 们 将 讨论 在 随后 调用 的 C 国 数 中 所 需 的 一 些 技巧 。 


保存 寄存 器 是 中 断 处 理 程 序 做 的 第 一 件 事 情 。 如 前 所 述 , IRQn 中 断 处 理 程 序 的 地 址 开始 
存在 interrupt [n] 中 ， 然 后 复制 到 IDT 相应 表 项 的 中 断 门 中 。 


通过 文件 arch/i386erneweniry.3 中 的 几 条 汇编 语言 指令 建立 interrupt 数 组 ， 数 组 包括 
NR_IRQS 个 元 素 , 这 里 NR_IROS 宏 产生 的 数 为 224 或 16, 当 内 核 支持 新 近 的 IO APIC 
心 片 时 【〈 注 10)，NR_IRQS 宏 产 生 的 数 为 224， 而 当 内 核 支 持 旧 的 8259A 可 编程 控制 
器 芯片 时 ，NR_IRQS 宏 产 生 数 16。 数 组 中 案 引 为 n 的 元 素 中 存放 下 面 两 条 汇编 语言 
令 的 地 址 : 


它 口 号 hh $n-256 
mB common_interrupt 


结果 是 把 中 断 号 减 256 的 结果 保存 在 栈 中 。 内 核 用 负数 表示 所 有 的 中 断 ， 因 为 正 数 用 来 
表示 系统 调用 ( 见 第 十 章 )。 当 引用 这 个 数 时 ,可 以 对 所 有 的 中 断 处 理 程 序 都 执行 相同 的 
代码 。 这 有 段 通用 代码 开始 于 标签 common_interrupt 处 , 包括 下 面 的 汇编 语言 宏和 指令 。 


Common_interrupt: 
SAVE_ALL 
moOV] SesD; Geax 
call do_IRG 
jmp ret_from_intr 


SAVE_ALL 宏 依次 展开 成 下 列 片段 : 


cld 

PUush $es 

Dush $ds 
Pushl] $eax 
BUuShl Sebp 
puUuShNl1 $edl 
pushl esi 
Bushl Sedx 

也 号 Secx 
bushl $®ebx 
moOVv1 $ _ _USER_DS, Yedx 
movl Sedx,$ds 
MOWV] $G$edx, Ses 


证 0: 。 80x86 体 系 结 枸 限制 了 只 能 使 用 256 个 向 量 。 其 中 32 个 留 给 CPU，,， 因此 可 用 向 量 空间 有 
224 个 向 量 。 
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SAVE_ALL 可 以 在 栈 中 保存 中 断 处 理 程序 可 能 会 使 用 的 所 有 CPU 寄存 器 ,但 eflags、cs、 
eip、ss 及 esp 除外， 因为 这 几 个 寄存 器 已 经 由 控制 单元 自动 保存 了 (参见 前 面 “中 断 
和 人 异常 的 硬件 处 理 ” 一 节 )。 然 后 ,这 个 宏 把 用 户 数据 段 的 选择 符 装 到 ds 和 es 寄存 器 。 


保存 寄存 器 的 值 以 后 ， 栈 顶 的 地 址 被 存放 到 eax 寄存 器 中 ， 然 后 中 断 处 理 程序 调用 
do_IRQl() 国 数 。 执 行 ao_IRQel() 的 ret 指令 时 ( 即 函 数 结束 时 )， 控 制 转 到 
ret_from_intr()( 见 后 面 “从 中 断 和 异常 返回 ”一 节 )。 


do_IRQ() 函 数 
调用 do_IRQ() 函数 执行 与 一 个 中 断 相 关 的 所 有 中 断 服务 例 程 。 读 函数 声明 为 : 


__attribute__ (lregparm{(3})}) unsigned int do_IRQ(struct pt_regs *regs) 


关键 字 regparm 表 示 国 数 到 eax 寄存 器 中 去 找到 参数 regs 的 值 。 如 上 所 见 ，eax 指 
向 被 SAVE_ALL 最 后 压 人 栈 的 那个 寄存 器 在 栈 中 的 位 置 。 


Go_IRQ() 国 数 执行 下 面 的 操作 : 


1. 执行 ira_enter() 宏 , 它 使 表示 中 断 处 理 程 序 嵌 套数 量 的 计数 器 递增 。 计数 器 保存 
在 当前 进程 thread_info 结 构 的 preempt_count 字段 中 ( 见 本 章 后 面 的 表 4-10)。 


2. 如果 thread_union 结 构 的 大 小 为 4KB, 函数 切换 到 硬 中 断 请 求 栈 , 并 执行 下 面 


a， 执行 current_thread_info() 函 数 以 获取 与 内 核 栈 (地 址 在 esp 中 ) 相 连 的 
thread_info 描 述 符 的 地 址 ( 见 第 三 章 “ 标 识 一 个 进程 ”一 节 )。 


b， 把 上 一 步 歼 取 的 thread_info 描述 符 的 地 址 与 存放 在 hardirqg_ctx[smp_ 
processor_id()] 中 的 地 址 (与 本 地 CPU 相关 的 thread_info 描 述 符 的 地 址 ) 
相 比 较 。 如 果 两 个 地 址 相等 , 说 明 内 核 已 经 在 使 用 硬 中 断 请 求 栈 ， 因此 跳 转 到 
第 3 步 ， 这 种 情况 发 生 在 内 核 处 理 另 外 一 个 中 断 时 又 产生 了 中 断 请 求 的 时 候 。 

c. 这 一 步 必 须 切换 内 核 栈 。 保 存 当 前 进程 描述 符 指 针 ， 读 指针 在 本 地 CPU 的 
irq_ctx 联合 体 中 的 thread_info 描 述 符 的 task 字段 中 。 完 成 这 一 步 操作 
就 能 在 内 核 使 用 硬 中 断 请 求 栈 时 使 当前 宏 按 预先 的 期 望 工作 (参见 第 三 章 “ 标 
襄 一 外 进程 :一 站 。 

d， 把 esp 栈 指针 寄存 器 的 当前 值 在 人 本 地 CPU 的 ira_ctx 联 合体 的 EthreaG_infoc 
描述 符 的 previous_esp 字 段 中 ( 仅 当 为 内 核 oop 准备 函数 调用 跟踪 时 使 用 该 
字段 )。 


TN 


e. 把 本 地 CPU 硬 中 断 请 求 栈 的 栈 顶 (其 值 等 于 hardirg ctx[smp_processor_ 
id{)] 加 上 4096) 装 入 esp 寄存 器 ;以 前 esp 的 值 存 人 ebx 寄存 器 。 


3. “调用 __adao_IRof) 国 数 ， 把 指针 regs 和 regs->orig_eax 字 段 中 的 中 断 号 传递 给 
该 函数 ( 见 下 面 一 节 )。 

4. ”如 果 在 上 面 的 第 2e 步 已 经 成 功 地 切换 到 硬 中 断 请 求 栈 ， 函数 把 ebx 寄存 器 中 的 原 
始 栈 指针 拷 风 到 esp 寄存 跨 ， 从 而 回 到 以 前 在 用 的 异常 栈 或 软 中 断 请 求 栈 。 

5. 执行 宏 ira_exit (), 该 宏 递减 中 断 计 数 器 并 检查 是 否 有 可 延迟 函数 正 等 待 执行 ( 见 
本 章 稍 后 “ 软 中 断 及 tasklet” 一 节 )。 

6. 结束 : 控制 转向 ret_from_incr() 国 数 ( 见 后 面 “ 从 中 断 和 异常 返回 ”一 节 ) 。 


__do_IRQ() 函 数 
__do_IRQI) 国 数 接受 IRQ 号 (通过 eax 寄存 器 ) 和 指向 pt_regs 结构 的 指针 (通过 
edx 寄存器， 用 户 态 寄存 器 的 值 已 经 存在 其 中 ) 作为 它 的 参数 。 


国 数 相当 于 下 面 的 代码 段 ， 


spin lockt&g(lirg desc[lirg] .lock))}: 
irdq desc[irg] .handler->ack(irg); 


lrdq desc[irgq] .status &= ~(IRO REPLAY | TROQ_WAITING); 
irdgq_ desc[irgq] .status |= 工 RO_PENDING ; 
if (‘1 (irg desc[irgq] .status & (IRQ DISABLED | IRQ INPROGRESS)})) 
&& irgq desc[lirg] .action) { 
irgq_desc[irg] .status |= IRQ_INPROGRESS.; 
do 1 


irgq_desc[irg)] .status &= ~IRNQ_PENDING; 
spin_unlockig (irg desc[irg] .lock}); 
handle_IRD_ event (irg, regs, irg desc[irg] .act1ion}); 
spin_lock(&k(irg desc[irgq] .lock}); 
} While (irg_desc[irgq] .status & IRQ_PENDING): 
irdq desc[irg] ,statuyus &= ~IRQ _ INPROGRESS; 
用 
irg desc[irgq] .handler->end(!irg}; 
spin unlock(g(lirg desc[irgql .lock))}):; 


在 访问 主 IRQ 描 述 符 之 前 , 内核 获 得 相应 的 自 旋 锁 。 在 第 五 章 我 们 会 看 到 ， 自 旋 锁 保护 
不 同 CPU 的 并 发 访问 (在 单 处 理 器 系统 上 ，spin_lock1{) 国 数 无 所 事 事 ) 。 在 多 处 理 器 
系统 上 , 这 个 锁 是 必要 的 , 因为 同 种 类 型 的 其 他 中 断 可 能 产生 , 其 他 CPU 可 能 关注 新 中 
断 的 出 现 。 没 有 自 旋 锁 ， 主 IRQ 描述 符 会 被 几 个 CPU 同时 访问 。 正 如 我 们 会 看 到 的 那 


获得 自 旋 锁 后 ， 国 数 就 调用 主 IRQ 描述 符 的 ack 方法 。 如 果 使 用 旧 的 8259A PIC ， 相 


> ce 


应 的 mask_and ack_8259A() 函 数 应 答 PIC 上 的 中 断 ,， 并 禁用 这 条 IRQ 线 。 屏 项 IRQ 线 
是 为 了 确保 在 这 个 中 断 处 理 程序 结束 前 ，CPU 不 进一步 接受 这 种 中 断 的 出 现 。 请 记 住 ， 
__do_IRQ() 沙 数 是 以 禁止 本 地 中 断 运行 的 ， 事实 上 ，CPU 控制 单元 自动 清 eflags 寡 
存 器 的 IF 标志 ， 因 为 中 断 处 理 程序 是 通过 IDT 中 断 门 调用 的 。 不 过 ,我 们 立即 会 看 到 ， 
内 核 在 执行 这 个 中 断 的 中 断 服 务 例 程 之 前 可 能 会 重新 激活 本 地 中 断 。 


然而 , 在 使 用 IO 高 级 可 编程 中 断 控 制 器 (APIC) 时 ， 事情 更 为 复杂 。 应答 中 断 依赖 于 
中 断 类 型 ， 可 能 是 由 ack 方 法 做 , 也 可 能 延迟 到 中 断 处 理 程 序 结束 (也 就 是 应 答 由 ena 
方法 去 做 )。 在 任何 一 种 情况 下 ,我 们 都 认为 中 断 处 理 程序 结束 前 ,本 地 APIC 不 进一步 
接收 这 种 中 断 ， 尽 管 这 种 中 断 的 进一步 出 现 可 能 被 其 他 的 CPU 接受 。 


然后 ，_ _do_IRQE() 函 数 初 始 化 主 IRQ 描述 符 的 几 个 标志 。 设 置 IRO_PENDING 标志 ， 
是 因为 中 断 已 被 应 答 (在 一 定 程度 上 ), 但 是 还 没有 真正 地 处 理 ; 也 清除 IRQ_WAITING 
和 IRQ_REPLAY 标志 (但 我 们 现在 不 必 关 注 它们 )。 


现在 ，__do_IRO() 检 查 是 否 必须 真正 地 处 理 中 断 。 在 三 种 情况 下 什么 也 不 做 ， 这 在 下 
面 给 于 讨论 : 


IRQ_DISABLED 静 埃 稼 
即使 相应 的 IRQ 线 被 禁止 ，CPU 也 可 能 执行 _ _do_IRO() 消 数 ; 在 后 面 “挽救 天 
和 失 的 中 断 ” 一 布 你 会 找到 对 这 种 非 直 觉 情况 的 解释 。 此 外 ,即使 PIC 上 的 IRQ 线 被 
薪 用 ， 有 问题 的 主板 也 可 能 产生 伪 中 斯。 

ITRO_INPROGRESS 裔 设置 
在 多 处 理 器 系统 中 ， 另 一 个 CPU 可 能 处 理 同 一 个 中 断 的 前 一 次 出 现 。 为 什么 不 把 
这 次 出 现 的 中 断 推迟 到 那个 CPU (处 理 前 一 次 中 断 ) 上 去 处 理 呢 ? 这 正 是 Linux 所 
做 的 事情 。 这 就 导致 了 较 简 单 的 内 核 结构 , 因为 设备 驱动 程序 的 中 断 服务 例 程 不 必 
是 可 重 人 的 (它们 的 执行 是 串 行 的 ) 。 此 外 , 释放 的 CPU 很 快 又 返回 到 它 正 在 做 的 
事 上 而 没有 和 弄 脏 它 的 硬件 高 速 缓存 ， 这 对 系统 性 能 是 有 益 的 。 只 要 一 个 CPU 用 来 
执行 中 断 的 中 断 服 务 例 程 , IRQ_INPROGRESS 标 志 就 被 设置 ; 因此 ,， _do_IRQO1) 
国 数 在 开始 真正 工作 之 前 对 这 个 标志 进行 检查 。 

irc desc[irq] .action 为 NULL 
当中 断 没 有 相关 的 中 断 服务 例 程 时 出 现 这 种 情况 . 通常 情况 下 , 只 有 在 内 核 正在 探 
测 一 个 硬件 设备 时 这 才 会 发 生 。 


让 我 们 假定 三 种 情况 没有 一 种 成 立 ， 因 此 中 断 必须 被 处 理 。__do_IRQ() 设 置 
IRQ_INPROGRESS 标 志 并 开始 一 个 循环 。 在 每 次 循环 中 , 函数 清 IRQ_PENDING 标 志 ， 
释放 中 断 自 旋 锁 ， 并 调用 handale_IRoO_event {) 执 行 中 断 服务 例 程 (在 后 面 “ 中 断 服 务 


?和 Li 





例 程 ” 一 节 中 掺 述 )}。 当 handle_IRO_event () 终 止 时 ，_ _do_IRO() 再 次 获得 自 旋 锁 ， 
并 检查 IRO_PENDING 标志 的 值 。 如 果 读 标志 清 0， 那 么 ,中断 的 进一步 出 现 不 传递 给 
男 一 个 CPU， 因 此 ， 循环 结束 。 相 反 ， 如 果 IRQ_PENDING 被 设置 ， 当 这 个 CPU 正在 
执行 handle_IRQ_event (} 时 ， 另 一 个 CPU 已 经 在 为 这 种 中 断 执行 4o_IRQE1() 函数 。 
此 ，do_IRQ() 执 行 循 环 的 另 一 次 反复 ， 为 新 出 现 的 中 断 提供 服务 ( 注 11)。 


我 们 的 __do_IRQE() 函 数 现在 淮 备 终止 ,或 者 是 因为 已 经 执行 了 中 断 服务 例 程 ,或 者 是 
因为 无 事 可 做 。 国 数 调用 主 IRQ 描述 符 的 end 方法 。 当 使 用 旧 的 8259A PIC 时， 相应 
的 end_8259A_irq{) 函 数 重新 油 活 IRQ 线 (除非 出 现 伪 中 断 )。 当 使 用 IO APIC 时 ， 
ena 方法 应 答 中 断 (如 果 ack 方法 还 设 有 去 做 )。 


最 后 ，_ _do_IRQE{) 释 放 自 旋 锁 ;艰难 的 工作 已 经 完成 | 


挽救 丢失 的 中 断 

__gdo_IRQI) 国 数 小 而 简单 ,但 在 大 多 数 情况 下 它 都 能 正常 工作 。 的 确 ,IRO_PENDING、 
IRO_INPROGRESS 和 IRO_DISABLED 标志 确保 中 断 能 被 正确 地 处 理 ， 即 使 硬件 失常 
也 不 例外 。 然 而 ， 在 多 处 理 器 系统 上 事情 可 能 不 会 这 么 顺利 。 


假定 CRU 有 一 条 激活 的 IRQ 线 。 一 个 硬件 设备 出 现在 这 条 IRQ 线 程 上 , 且 多 APIC 系统 
选择 我 们 的 CPU 处 理 中 断 。 在 CPU 应 答 中 断 前 ,这 条 IRQ 线 被 男 一 个 CPU 屏蔽 掉 ， 结 
采 ，IRQ_DISABLED 标志 被 设置 。 随 后 ， 我 们 的 CPU 开始 处 理 挂 起 的 中 断 ， 因 此 ， 
ao_IRQ() 国 数 应 答 这 个 中 断 ， 然 后 返回 ， 但 没有 执行 中 断 服 务 例 程 ， 因 为 它 发 现 
IRQ_DISABLED 标志 被 设置 了 。 因 此 ， 在 IRQ 线 禁用 之 前 出 现 的 中 断 丢 失 了 。 


为 了 应 付 这 种 局 面 ， 内 核 用 来 激活 IRQ 线 的 enable_i rq() 函 数 先 检查 是 否 发 生 了 中 断 
丢失， 如 果 是 ， 该 函数 就 强迫 硬件 让 丢失 的 中 断 再 产生 一 次 ; 


spin_lock_irgasave(& (irg desc[irg] .lock}, flags):; 
if 1{--irg_desc[irg] .depth == 0) 1 
lrdq_ desciirg] .status &= ~IRO_DISABLED; 
if (ird desc[irg] .status & (IRGQ_PENDING | IRO_ REPLAY)}) 
== IRO_PENDING}) | 
irdq_ desc[irg]l ,status |= IRQ_REPLAY,; 
hw _ resend_irg{lirgq_desc[1irg] .handler, irg):; 
} 
irdq desc[irg] .handler-~enable (irg}; 
| 
spin_lock_irarestore(&g(irg desc[irg] .laock}, flags}): 





注 11: 由 于 IRQ_PENDING 是 一 个 标志 而 不 是 计数 器 .因此 只 有 第 二 次 出 现 的 中 断 才 能 被 识别 ， 
而 且 do_IRQUO 在 每 次 逢 环 中 都 只 是 到 弃 再 次 出 现 的 中 断 。 
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国 数 通过 检查 IRQ_PENDING 标 志 的 值 检测 到 一 个 中 断 被 丢失 了 。 当 离 开 中 断 处 理 程 序 
时 ， 这 个 标志 总 置 为 0， 因此， 如 果 IRQ 线 被 禁止 且 读 标志 被 设置 那么， 中断 的 一 个 
出 现 已 经 被 应 答 但 还 没有 处 理 , 在 这 种 情况 下 ,hw_resenqd_irg|() 函 数 产生 一 个 新 中 断 。 
这 可 以 通过 强制 本 地 APIC 产生 一 个 自我 中 断 (self-interrupt) 来 达到 (参看 后 面 “ 处 理 
器 间 中 断 处 理 ” 一 节 )。IRQ_REPLAY 标 志 的 作用 是 确保 只 产生 一 个 自我 中 断 。 请 记 住 ， 
__do_IRQ() 函 数 在 开始 处 理 中 断 时 清除 那个 标志 。 


中 断 服务 例 程 


如 前 所 述 ， 一 个 中 断 服务 例 程 (ISR) 实现 一 种 特定 设备 的 操作 。 当 中 断 处 理 程 序 必 须 
执行 ISR 时 ， 它 就 调用 handle_IRQ_event () 函数 。 这 个 函数 本 质 上 执行 如 下 步 又 ， 


1， 如 果 SA_INTERRUPT 标志 清 0， 就 用 sti 汇编 语言 指令 激活 本 地 中 断 。 
2. 通过 下 列 代码 执行 每 个 中 断 的 中 断 服务 例 程 : 


retval = 0D; 

do | 
retval |= action->handler{(irg, action->dev_id, regs}; 
action = action->next:; 

} while (action}:; 


在 循环 的 开始 ，action 指向 irgqaction 数据 结构 链表 的 开始 ， 而 irgqaction 表 
示 接 受 中 断后 要 采取 的 操作 (参见 本 章 前 面 的 图 4-5) 。 

3. 用 cli 汇编 语言 指令 禁止 本 地 中 断 。 

4. ”通过 返回 局 部 变量 retval 的 值 而 终止 ,也 就 是 说 ,如果 没有 与 中 断 对 应 的 中 断 服 
务 例 程 ， 返 回 0， 否则 返回 1 ( 见 下 面 )。 


所 有 的 中 断 服务 例 程 都 作用 于 相同 的 参数 (它们 分 别 又 一 次 通过 eax、edx 和 ecx 寄 存 
壬 来 传递 ) : 


irg 

IRQ 号 
dev_1d 

设备 标识 符 
regs 


指向 内 核 (异常 ) 栈 的 pt_regs 结 构 的 指针 , 栈 中 含有 中 断 发 生 后 随即 保存 的 寄存 
器 。pt_regs 结构 包括 15 个 字段 : 


。 开始 的 9 个 字段 是 被 SAVE_ALL 压 人 栈 中 的 寄存 器 的 值 。 
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。 第 10 个 字段 为 IRQ 号 编码 ， 通 过 orig_eax 字段 被 引用 。 
。 ”其 余 的 字段 对 应 由 控制 单元 自动 压 人 栈 中 的 寄存 哆 的 值 。 


第 一 个 参数 允许 一 个 单独 的 ISR 处理 几 条 IRQ 线 , 第 二 个 参数 允许 一 个 单独 的 ISR 照顾 
儿 个 同类 型 的 设备 , 第 三 个 参数 允许 ISR 访问 被 中 断 的 内 核 控制 路 径 的 执行 上 下 文 。 实 
际 上 ， 大 多 数 ISR 不 使 用 这 些 参数 。 


每 个 中 断 服务 例 程 在 成 功 处理 完 中 断后 都 返回 1， 也 就 是 说 ， 当 中 断 服 务 例 程 所 处 理 的 
硬件 设备 (而 不 是 共享 相同 IRQ 的 其 他 设备 ) 发 出 信和 号 时 ， 否则 返回 0。 这 个 返回 码 使 
内 核 可 以 更 新 在 本 章 前 面 “IRQ 数据 结构 ”一 布 描述 过 的 伪 中 断 计 数 器 。 


当 do_IRQ() 函数 调用 一 个 ISR 时 , 主 IRQ 描 述 符 的 SA_INTERRUPT 标志 决定 是 开 中 
断 还 是 关中 断 。 通 过 中 断 调用 的 1ISR 可 以 由 一 种 状态 转换 成 相反 的 状态 。 在 单 处 理 器 系 
统 上 ， 这 是 通过 cli (关中 断 ) 和 sti ( 开 中 断 汇编 语 言 指令 实现 的 )。 


ISR 的 结构 依赖 于 所 处 理 设备 的 特点 。 我 们 将 在 第 六 章 和 第 十 三 章 给 出 几 个 ISR 的 例子 。 


IRQ 线 的 动态 分 配 

在 前 面 “ 中 断 向 量 ” 一 节 已 经 看 到 ， 有 几 个 向 量 留 给 特定 的 设备 ,而 其 余 的 向 量 都 被 动 
态 地 处 理 。 因 此 有 一 种 方式 , 在 该 方式 下 同一 条 IRQ 线 可 以 让 几 个 硬件 设备 使 用 ,即使 
这 些 设备 不 允许 IRQ 共 享 。 技巧 就 在 于 使 这 些 硬件 设备 的 活动 串 行 化 , 以 便 一 次 只 能 有 
一 个 设备 拥有 这 个 IRQ 线 。 


在 沿 活 一 个 谁 备 利 用 IRQ 线 的 设备 之 前 , 其 相应 的 驱动 程序 调用 request_irg()。 这 个 
函数 建立 一 个 新 的 jrqact ion 描 述 符 , 并 用 参数 值 初始 化 它 。 然后 调用 setup _irq() 
函数 把 这 个 描述 符 插 入 到 合适 的 IRQ 链表 。 如 果 setup _irgq() 返 回 一 个 出 错 码 ,设备 
驱动 程序 中 止 操作 , 这 意味 着 IRQ 线 已 由 另 一 个 设备 所 使 用 , 而 这 个 设备 不 允许 中 断 共 
享 。 当 设备 操作 结束 时 , 驱动 程序 调用 free_irg() 函 数 从 IRQ 链 表 中 删除 这 个 描述 符 ， 
并 释放 相应 的 内 存 区 。 


让 我 们 用 一 个 简单 的 例子 看 一 下 这 种 方案 是 怎么 工作 的 。 假 定 一 个 程序 想 访 问 /devwhfa0 
设备 文件 对 应 于 系统 中 的 第 一 个 软盘 ( 注 12)。 程 序 要 做 到 这 点 , 可 以 通过 直接 访问 /dew 
Ja0, 也 可 以 通过 在 系统 上 安装 一 个 文件 系统 。 通 常 将 IRQ6 分 配给 软盘 控制 器 ,给 定 这 
小 号 ， 软 盘 驱 动 程序 发 出 下 列 请 求 : 


注 12: 软 瘟 是 通常 不 允许 IRQ 共享 的 “ 旧 设 备 ”。 
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request_irgqtb, floppy_interrupt, SA_INTERRUPTISA SAMPLE RANDOM, "floppy", NULL); 


我 们 可 以 观察 到 , floppy_interrupt () 中断 服务 例 程 必须 以 关中 断 ( 设 置 SA_INTERRUPT) 
的 方式 来 执行 ， 并 且 不 共享 这 个 IRQ ( 清 SA_SHIRQ 标 志 )。 设 置 SA-SAMPLE-RANDOM 标 志 
意味 着 对 软盘 的 访问 是 内 核 用 于 产生 随机 数 的 一 个 较 好 的 随机 事件 源 。 当 软盘 的 操作 被 
终止 时 (要 么 终止 对 /dewfa0 的 MO 操作 ,要么 卸载 这 个 文件 系统 ) ,驱动 程序 就 释放 IRQ6 


free_irgté, NULL)}): 


为 了 把 一 个 irqaction 描 述 符 插入 到 适当 的 链表 中 ， 内核 调 用 setup _iraf) 国 数 ， 传 
递 给 这 个 函数 的 参数 为 irq_nr ( 即 IRQ 号 ) 和 new ( 即 刚 分 配 的 irgaction 描 述 符 的 
地 址 )。 这 个 函数 将 : 


1. 检查 男 一 个 设备 是 否 已 经 在 用 irq_nr 这 个 IRQ, 如 果 是 , 检查 两 个 设备 的 irqaction 
描述 符 中 的 SaA_SHIRQ 标志 是 否 都 指定 了 IRQ 线 能 被 共享 。 如 果 不 能 使 用 这 个 IRQ 
线 ， 则 返回 一 个 出 错 码 。 

2 把 *new( 由 new 指 癌 的 新 1irqacticon 朱 述 符 ) 加 到 由 ira_dqaescf[ira_nr]->acticon 
指向 的 链表 的 末尾 。 


3， ”如果 设 有 其 他 设备 共享 同一 个 IRQ , 清 *new 的 Elags 字 段 的 IRQ _DISABLED. 
IRO_AUTODETECT. IRQ_WAITING 和 IRQ _INPROGRESS 标志 ， 并 调用 
irdq_desc[irg_nr]->handler PIC 对 象 的 startup 方法 以 确保 IRQ 信号 被 沿 活 。 


举 一 个 如 何 使 用 setup _irag() 的 例子 , 它 是 从 系统 初始 化 的 代码 中 抽出 的 。 内 核 通过 执 
行 Eime_init() 国 数 中 的 下 列 指令 , 初始 化 间隔 定时 器 设备 的 ijrgq0 描 述 符 (参见 第 六 章 )。 
struct irgqaction irdg0 = 
{timer_interrupt, SA_INTERRUPT, OO, "timer", NULL, NULL}; 
setup_l1rg(t0, &irgq0); 
首先 , 类 型 irqaction 的 ijrg0 恋 量 被 初始 化 :把 handler 宇 段 设 置 成 timer_interrupt () 
函数 的 地 址 ，f1lags 字段 设置 成 SA_INTERRUPT, name 字段 设置 成 “timer”, 最 后 一 
个 字段 设置 成 NULL 以 表示 没有 用 aev_ iaqa 值 。 接 下 来 , 内核 调 用 setup _irag(}) 把 ira0 
插入 到 与 IRQ0 相关 的 irqaaction 描述 符 链 表 中 。 


处 理 器 间 中 断 处 理 


处 理 绢 间 中 断 允 许 一 个 CPU 向 系统 中 的 其 他 CPU 发 送 中 断 信和 号。 如 本 章 前 面 “ 高 级 可 
编程 中 断 控制 器 ”一 节 所 述 , 处 理 器 间 中 断 (IPI) 不 是 通过 IRQ 线 传输 的 ,而 是 作为 信 
号 直接 放 在 连接 所 有 CPU 本 地 APIC 的 总 线 上 (在 较 老 的 主板 上 是 一 条 专门 的 总 线 , 而 
在 基于 Pentium 4 的 主板 上 就 是 系统 总 线 )。 
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人 二 i ge Dd 


在 多 处 理 器 系统 上 ，Linux 定义 了 下 列 三 种 处 理 器 间 中 断 (参看 表 4-2): 


CALL_FUNCTION_VECTOR (向 量 0xfDp) 
发 往 所 有 的 CPU (不 包括 发 送 者 ), 强制 这 些 CPU 运行 发 送 者 传递 过 来 的 鲜 数 。 相 
应 的 中 断 处 理 程序 叫做 call_function_interrupt{)。 例 如 ， 地 址 存放 在 全 局 变 
量 call_daata 中 来 传递 的 国 数 ， 可 能 强制 其 他 所 有 CPU 都 停止 ， 也 可 能 强制 它们 
设置 内 存 类 型 范围 寄存 器 (Memory Type Range Register，MTRR)( 注 13) 的 内 
容 。 通 常 ， 这 种 中 上 断 发 往 所 有 的 CPU， 但 通过 smp_cal1_function() 执 行 调用 范 
数 的 CPU 除外 。 

RESCHEDULE_VECTOR (向量 0xfc) | 
当 一 个 CPU 接收 这 种 类 型 的 中 断 时 , 相应 的 处 理 程序 (叫做 reschedule_interrupt ()) 
限定 自己 来 应 答 中 断 。 当 从 中 断 返 回 时 ， 所 有 的 重新 调度 都 自动 进行 (参见 本 章 后 面 
“从 中 断 和 异常 返回 ”一 节 )。 

INVALIDATE_TLB_VECTOR (向 最 0xfq) 
发 往 所 有 的 CPU (不 包括 发 送 者 ), 强制 它们 的 转换 后 援 缓 冲 器 (TLB ) 变 为 无 效 。 
相应 的 处 理 程 序 ( 则 做 invaligdate_interrupt () ) 刷 新 处 理 器 的 某 些 TLB 表 项 ， 
正如 在 第 二 章 “ 处 理 硬件 高 速 缓存 和 TLB” 一 节 所 描述 的 那样 。 


处 理 器 间 中 断 处 理 程序 的 汇编 语言 代码 是 由 BUILD_ INTERRUPT 宏 产 生 的 : 它 保存 
寄存 器 ， 从 栈 顶 压 入 向 量 号 减 256 的 值 ， 然 后 调用 高 级 C 国 数 ， 其 名 字 就 是 低级 处 理 程 
序 的 名 字 加 前 组 smp_。 例 如 ，CALL_FUNCTION_VECTOR 类 型 的 处 理 器 间 中 断 的 低级 处 
理 程序 是 cal1_function_interrupt () , 它 调用 名 为 smp_cal1_function_ incerrapt () 
的 高 级 处 理 程序 。 每 个 高 级 处 理 程 序 应 答 本 地 APIC 上 的 处 理 器 间 中 断 ， 然 后 执行 由 中 
断 触 发 的 特定 操作 。 


由 于 下 列 的 一 组 函数 ,使 得 产生 处 理 器 间 中 断 (IPI) 变 为 一 件 容易 的 事 : 


send_IPI al11) 
发 送 一 个 IP1 到 所 有 的 CPU (包括 发 送 者 ) 。 
send _ IFPI allbutself') 


发 送 一 个 1PI 到 所 有 的 CPU (不 包括 发 送 者 )。 


注 13 : 从 Pentium Pro 模型 开始 ，Intel 微 处 理 器 包 念 这些 附 加 的 害 存 器 以 易于 定制 高 速 缓存 的 
操作 。 例如 ，Linux 可 以 使 用 这 些 寄 存 器 禁止 硬件 南 速 缓存 对 PCLUAGP 图 形 卡 的 帧 线 冲 
区 进行 地 址 映射 ， 同 时 维持 “操作 的 写 组 合 模式 :“ 在 把 写 传 送 数 据 (write transfer) 找 
贝 到 帧 线 冲 区 之 前 ， 分 页 单元 把 它们 组 合成 较 大 的 块 。 
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send IPI self{!) 
发 送 一 个 IPI 到 发 送 者 的 CPU。 
send_IPI mask!() 


发 送 一 个 1PI 到 位 掩 码 指定 的 一 组 CPU， 


软 中 断 及 tasklet 


我 们 前 面 在 “中 断 处 理 ” 一 节 提 到 ， 在 由 内 核 执行 的 几 个 任务 之 间 有 些 不 是 紧急 的 : 在 
必要 情况 下 它们 可 以 延迟 一 段 时 间 。 回忆 一 下 , 一 个 中 断 处 理 程序 的 几 个 中 断 服务 例 程 
之 间 是 串 行 执行 的 ,并 且 通 常 在 一 个 中 断 的 处 理 程 序 结 束 前 ,不 应 该 再 次 出 现 这 个 中 断 。 
相反 , 可 延迟 中 断 可 以 在 开 中 断 的 情况 下 执行 。 把 可 延迟 中 断 从 中 断 处 理 程序 中 抽出 来 
有 助 于 使 内 核 保持 较 短 的 响应 时 间 。 这 对 于 那些 期 望 它 们 的 中 断 能 在 几 毫 种 内 得 到 处 理 
的 “急迫 ”应 用 来 说 是 非常 重要 的 。 


Linux 2.6 迎接 这 种 挑战 是 通过 两 种 非 紧 迫 、 可 中 断 内 核 函 数 : 所 谓 的 可 延迟 函数 ( 注 
14) (包括 软 中 断 与 tasklets) 和 通过 工作 队列 来 执行 的 函数 (我们 将 在 本 章 后 面 “ 工 作 
队列 ”一 节 描 述 它 们 ) 。 


软 中 断 和 tasklet 有 密切 的 关系 ，tasklet 是 在 软 中 断 之 上 实现 。 事 实 上 , 出 现在 内 核 代码 
中 的 术语 “ 软 中 断 (softirg)” 常 常 表示 可 延迟 函数 的 所 有 种 类 。 另 外 一 种 被 广泛 使 用 的 
术语 是 “中 断 上 下 文 ” : 表示 内 核 当 前 正在 执行 一 个 中 断 处 理 程序 或 一 个 可 延迟 的 函数 。 


软 中 断 的 分 配 是 静态 的 ( 即 在 编译 时 定义 )， 而 tasklet 的 分 配 和 初始 化 可 以 在 运行 时 进 
行 (例如 : 安装 一 个 内 核 模块 时 )。 软 中 断 (即便 是 同一 种 类 型 的 软 中 断 ) 可 以 并 发 地 
运行 在 多 个 CPU 上 ,。 因此 , 软 中 断 是 可 重 人 函数 而 且 必 须 明确 地 使 用 自 旋 锁 保 护 其 数据 
结构 。tasklet 不 必 担 心 这 些 问 题 , 因为 内 核对 tasklet 的 执行 进行 了 更 加 严格 的 控制 。 相 
同类 型 的 tasklet 总 是 被 串 行 地 执行 ， 换 句 话说 就 是 : 不 能 在 两 个 CPU 上 同时 运行 相同 
类 型 的 tasklet。 但 是 ， 类 型 不 同 的 tasklet 可 以 在 几 个 CPU 上 并 发 执行 。tasklet 的 串 行 
化 使 tasklet 函数 不 必 是 可 重信 人 的， 因此 简化 了 设备 驱动 程序 开发 者 的 工作 。 


一 般 而 言 ， 在 可 延迟 函数 上 可 以 执行 四 种 操作 : 


芽 弟 化 {initialization ) 
定义 一 个 新 的 可 延迟 函数 ， 这 个 操作 通常 在 内 核 自身 初始 化 或 加 载 模 块 时 进行 。 





注 14: 它们 也 称 软 中 断 〈software interrupt) ， 我 们 称 它 们 为 “可 延迟 函数 是 为 了 避免 与 编程 
异常 相 混 消 ， 在 Intel 手册 中 ， 编 程 异 常 被 砍 为 软 中 断 。 


人 放生 -一 -= a 





斗 贡 {activation ) 
标记 一 个 可 延迟 函数 为 “ 挂 起 ”( 在 可 延迟 函数 的 下 一 轮 调 度 中 执行 )。 激活 可 以 在 
任何 时 候 进 行 (即使 正在 处 理 中 断 )。 
历 咸 {maskineg ) 
有 选择 地 屏 项 一 个 可 延迟 函数 , 这 样 ,， 即使 它 被 激活 ， 内核 也 不 执行 它 。 我 们 会 在 
第 五 章 “ 禁 止 和 激活 可 延迟 国 数 ”一 节 看 到 ， 禁 止 可 延迟 函数 有 时 是 必要 的 。 
成 生 (execution) 
执行 一 个 挂 起 的 可 延迟 函数 和 同类 型 的 其 他 所 有 挂 起 的 可 延迟 国 数 ,执行 是 在 特定 
的 时 间 进 行 的 ， 这 将 在 后 面 “ 软 中 断 ” 一 节 解 释 。 


激活 和 执行 不 知 何故 总 是 捆绑 在 一 起 :由 给 定 CPU 沿 活 的 一 个 可 延迟 国 数 必 须 在 同一 个 
CPU 上 执行 。 没有 什么 明显 的 理由 说 明 这 条 规则 对 系统 性 能 是 有 益 的 。 把 可 延迟 函数 乡 
定 在 激活 CPU 上 从 理论 上 说 可 以 更 好 地 利用 CPU 的 硬件 高 速 绥 存 。 毕竟, 可 以 想象 , 激 
活 的 内 核 线程 访问 的 一 些 数据 结构 ， 可 延迟 函数 也 可 能 会 使 用 。 然 而 ， 当 可 延迟 函数 运 
行 时 , 因为 它 的 执行 可 以 延迟 一 段 时 间 , 因此 相关 高 速 缓存 行 很 可 能 就 不 再 在 高 速 缓存 
中 了 。 此 外 , 把 一 个 国 数 绑 定 在 一 个 CPU 上 总 是 一 种 有 蕴 在 “危险 的 ”操作 ， 因 为 一 个 
CPU 可 能 忙 死 而 其 他 CPU 又 无 所 事 事 。 


软 中 断 


Linux 2.6 使 用 有 限 个 软 中 断 。 在 很 多 场合 ，tasklet 是 足够 用 的 ， 且 更 容易 编写 ， 因 为 
tasklet 不 必 是 可 重 人 的 。 


事实 上 ， 如 表 4-9 所 示 ， 目 前 只 定义 了 六 种 软 中 断 。 
表 4-9: Linux 2.6 中 使 用 的 软 中 断 


软 中 断 下 标 (优先 级 ) 说 明 

HI_SOFTIRGQ 0 处 理 高 优先 级 的 tasklet 
TIMER_SOFTIRO | 和 时 钟 中 断 相 关 的 tasklet 
NET_TX_SOFTIRQ 2 把 数据 包 传 送 到 网 卡 
NET_RX_SOFTIRO 3 从 网 卡 接收 数据 包 
SCSI_SOFTIRQ 4 SCSI 命令 的 后 台中 断 处 理 
TASKLET_SOFTIRO 5 处 理 常规 tasklet 


一 一 一 一 


一 个 软 中 断 的 下 标 决定 了 它 的 优先 级 : 低下 标 意 味 着 高 优先 级 , 因为 软 中 断 国 数 将 从 下 
标 0 开 始 执行 。 
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软 中 断 所 使 用 的 数据 结构 

表示 软 中 类 的 主要 数据 结构 是 softirq_vec 数 组 , 该 数组 包含 类 型 为 softirg action 
的 32 个 元 素 。 一 个 软 中 断 的 优先 级 是 相应 的 softirq_action 元 素 在 数组 内 的 下 标 。 如 
表 4-9 所 示 , 只 有 数组 的 前 六 个 元 素 被 有 效 地 使 用 。softirq_action 数 据 结构 包括 两 个 
字段 : 指向 软 中 断 国 数 的 一 个 action 指针 和 指向 软 中 断 函 数 需 要 的 通用 数据 结构 的 
data 指针 。 

另外 一 个 关键 的 字段 是 32 位 的 Preempt_count 字段 ,用 它 来 跟踪 内 核 抢 占 和 内 核 控制 
路 径 的 髓 套 , 该 字段 存放 在 每 个 进程 描述 符 的 thread_info 字 段 中 ( 见 第 三 章 “ 标 识 一 
个 进程 ”一 节 )。 如 表 4-10 所 示 ，preempt_count 字段 的 编码 表示 三 个 不 同 的 计数 器 和 


表 4-10，preempt_count 的 字段 


位 描述 

0 一 7 抢占 计数 器 (max value = 255) 
8 一 15 软 中 上 断 计 数 器 (max value = 255) 
16 一 27 硬 中 断 计 数 器 (max value = 4096) 
28 | PREEMPT_ACTIVE 标志 











第 一 个 计数 器 记录 显 式 禁用 本 地 CPU 内 核 抢 占 的 次 数 , 值 等 于 0 表示 允许 内 核 抢 占 。 第 
二 个 计数 器 表示 可 延迟 函数 被 禁用 的 程度 ( 值 为 0 表示 可 延迟 国 数 处 于 激 笑 状态 ) 。 第 三 
个 计数 器 表示 在 本 地 CPU 上 中 断 处 理 程序 的 艇 套数 (irq_enter() 宏 递增 它 的 值 ， 
irq_exit () 宏 递减 它 的 值 ， 见 本 章 前 面 “LO 中 断 处 理 ” 一 节 )。 


给 preempt_count 字 段 起 这 个 名 字 的 理由 是 很 充分 的 ; 当 内 核 代码 明确 不 允许 发 生 抢 占 
(抢占 计数 器 不 等 于 0) 或 当 内 核 正在 中 断 上 下 文中 运行 时 ， 必须 禁 用 内 核 的 抢占 功能 。 
因此 , 为 了 确定 是 否 能 够 抢占 当前 进程 , 内 核 快速 检查 preempt_count 字 段 中 的 相应 值 
是 否 等 于 0。 在 第 五 章 “ 内 核 抢占 ”一 节 将 深入 讨论 内 核 抢 占 。 


宏 in_interrupt() 检 查 current _thread_info()->preempt_count 字 7 段 的 硬 中 断 计 数 
器 和 软 中 断 计 数 器 ,只 要 这 两 个 计数 器 中 的 一 个 值 为 正 数 , 该 宕 就 产生 一 个 非 零 值 , 否 
则 产生 一 个 零 值 。 如 果 内 核 不 使 用 多 内 核 栈 , 则 该 宏 只 检查 当前 进程 的 threaG_info 描 
述 符 的 preempt_count 字段 。 但 是 , 如 果 内 核 使 用 多 内 核 栈 , 则 该 宕 可 能 还 要 检查 本 地 
CPU 的 ijrg_ctx 联 合体 中 thread_info 撕 述 符 的 preempt_count 字段 。 在 这 种 情况 下 ， 
由 于 该 字段 总 是 正 数值 ， 所 以 宏 返 回 非 零 值 。 


中 断 和 异常 0 
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实现 软 中 断 的 最 后 一 个 关键 的 数据 结构 是 每 个 CPU 都 有 的 32 位 掩 码 (描述 挂 起 的 软 中 
断 ) ， 它 存放 在 ira_cpustat 上 数据 结构 (回忆 一 下 , 在 系统 中 每 个 CPU 有 一 个 这 样 的 
数据 结构 , 见 表 4-8) 的 _ _softirq pending 字 段 中 。 为 了 获取 或 设置 位 掩 码 的 值 ， 内 
核 使 用 宏 local_softirg pending()， 它 选择 本 地 CPU 的 软 中 断 位 掩 码 ，。 


处 理 软 中 断 


open_softirq() 国 数 处 理 软 中 断 的 初始 化 。 它 使 用 三 个 参数 : 软 中 断 下 标 、 指 向 要 执行 

的 软 中 断 国 数 的 指针 及 指向 可 能 由 软 中 断 国 数 使 用 的 数据 结构 的 指针 .open_softirgqf() 

限制 自己 初始 化 softira_vec 数组 中 适当 的 元 素 。 

raise_softirq() 函 数 用 来 激活 软 中 断 , 它 接受 软 中 断 下 标 nr 作 为 参数 ,执行 下 面 的 操作 : 

1， 执行 1ocal_ira_save 宏 以 保存 eflags 寄 存 器 IF 标志 的 状态 值 并 禁用 本 地 CPU 
上 的 中 断 。 

2. ”把 软 中 断 标记 为 挂 起 状态 , 这 是 通过 设置 本 地 CPU 的 软 中 断 掩 码 中 与 下 标 nz 相 关 

3. ”如 果 in_interrupt() 产 生 为 1 的 值 ， 则 跳 转 到 第 5 步 。 这 种 情况 说 明 : 要 么 已 经 
在 中 断 上 下 文中 调用 了 raise_softirq()， 要 么 当前 禁用 了 软 中 断 。 


4， 否则 , 就 在 需要 的 时 候 去 调用 wakeup_softirqd() 以 唤醒 本 地 CPU 的 ksofrirgd 内 
核 线程 ( 见 后 面 )。 


5. 执行 1ocal_ira_rescore 宏 ,恢复 在 第 1 步 保 存 的 IE 标志 的 状态 值 。 

应 该 周期 性 地 (但 又 不 能 太 频 繁 地 ) 检查 活动 ( 挂 起 ) 的 软 中 断 ， 检查 是 在 内 核 代码 的 

几 个 点 上 进行 的 。 这 在 下 列 几 种 情况 下 进行 (注意 , 检查 点 的 个 数 和 位 置 随 内 核 版 本 和 

所 支持 的 硬件 结构 而 变化 ): 

*。 当 内 核 调 用 local_bh_enable () 国 数 〈 注 15) 激活 本 地 CPU 的 软 中 断 时 。 

。 当 do_IRQ() 完 成 了 LO 中 断 的 处 理 时 或 调用 irg_exit () 宏 时 。 

. 如 果 系 统 使 用 1/O APIC， 则 当 smp_apic_timer_interrupt{) 函 数 处 理 完 本 地 定 
时 器 中 断 时 ( 见 第 六 章 “ 多 处 理 器 系统 上 的 计时 体系 结构 ”一 节 )。 

。 ”在 多 处 理 器 系统 中 ， 当 CPU 处 理 完 被 CALL_FUNCTION_VECTOR 处 理 器 间 中 断 所 触 
发 的 函数 时 。 





注 15: local_bh_enablef) 这 个 名 称 表 示 叫 做 “后 半 部 分 "的 特殊 类 型 的 可 延迟 函数 ,在 Linux 
2.6 内 核 中 已 经 不 存在 “后 半 部 分 ”类 型 的 可 延迟 函数 。 
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*， ” 当 一 个 特殊 的 ksoftirgd/n 内 核 线程 被 唤醒 时 ( 见 后 面 )。 


do_softirq() 函数 


如 果 在 这 样 的 一 个 检查 点 (local_softirqg_pending() 不 为 0) 检测 到 挂 起 的 软 中 断 ， 
内 核 就 调用 do_softirag() 来 处 理 它们 。 这 个 函数 执行 下 面 的 操作 : 


1.， 如果 in_interrupt () 产 生 值 1， 则 国 数 返 回 。 这 种 情况 说 明 要 么 在 中 断 上 下 文中 
调用 了 ao_softira() 国 数 ， 要 么 当前 禁用 软 中 断 。 


2， 执行 local_irq_save 以 保存 IF 标志 的 状态 值 ， 并 禁用 本 地 CPU 上 的 中 断 。 


3. 如果 threaa_union 的 结构 大 小 为 4KB , 那么 在 需要 的 情况 下 , 它 切 换 到 软 中 断 请 
求 栈 。 这 一 步 与 前 面 “LIO 中断 处 理 ” 一 节 do_IRQ() 的 第 2 步 很 相似 ， 当 然 这 里 使 
用 的 是 数组 softirqg_ctx 而 不 是 hardirg_ctx。 


4. ”调用 __do_softirq() 销 数 (参见 下 面 一 节 )。 


5. ”如 果 在 上 面 第 3 步 成 功 切换 到 软 中 断 请 求 栈 , 则 把 最 初 的 栈 指针 恢复 到 esp 寄 存 器 
中 ， 这 样 就 切换 回 到 以 前 使 用 的 异常 栈 。 


6. 执行 local_irq_restore 以 恢复 在 第 2 步 保存 的 IF 标 志 (表示 本 地 是 关中 断 还 是 
开 中 断 ) 的 状态 值 并 返回 。 


__do_softirq() 函 数 


__do_softirq() 国 数 读 取 本 地 CPU 的 软 中 断 掩 码 并 执行 与 每 个 设置 位 相关 的 可 延迟 函 
数 。 由 于 正在 执行 一 个 软 中 断 国 数 时 可 能 出 现 新 挂 起 的 软 中 断 , 所 以 为 了 保证 可 延迟 国 
数 的 低 延 迟 性 ，_ _do_softirqg() 一 直 运 行 到 执行 完 所 有 挂 起 的 软 中 断 。 但 是 ,这 种 机 
制 可 能 迫使 _ _ao_softira() 运 行 很 长 一 段 时 间 ,， 因 而 大 大 延迟 用 户 态 进程 的 执行 。 因 
此 ，__do_softirq() 只 做 固定 次 数 的 循环 , 然后 就 返回 。 如果 还 有 其 余 挂 起 的 软 中 断 ， 
那么 下 一 市 要 描述 的 内 核 线 程 ksoftirqd 将 会 在 预期 的 时 间 内 处 理 它们 。 下 面 简单 描述 
__qo_softiraf) 国 数 执行 的 操作 ， 


1. 把 循环 计数 器 的 值 初始 化 为 10。 


2. 把 本 地 CPU (被 local_softirqg pending() 选 中 的 ) 软 中 断 的 位 掩 码 复 制 到 局 部 
变量 pending 中 。 


3. ”调用 local_bh_disable(}) 增 加 软 中 断 计 数 器 的 值 。 在 可 延迟 函数 开始 执行 之 前 应 
该 禁用 它们 , 这 似乎 有 点 违反 直觉 , 但 确实 极 有 意义 。 因为 在 绝 大 多 数 情 况 下 可 延 
迟 函 数 是 在 开 中 断 的 状态 下 运行 的 , 所 以 在 执行 _ _do_softirqg() 的 过 程 中 可 能 会 
产生 新 的 中 断 。 当 do_IRQ1{) 执 行 iraq_exit() 宏 上 时， 可 能 有 另外 一 个 


中 断 和 异常 17 


__do_softirq() 国 数 的 实例 开始 执行 .这 种 情况 是 应 该 避免 的 , 因为 可 延迟 函数 必 
须 以 串 行 的 方式 在 CPU 上 运行 。 因 此 ，_ _do_softirg() 函 数 的 第 一 个 实例 禁用 可 
延迟 函数 ， 以 使 每 个 新 的 函数 实例 将 会 在 do_softirg() 国 数 的 第 1 步 就 退出 。 


4. ”清除 本 地 CPU 的 软 中 断 位 图 ， 以 便 可 以 激活 新 的 软 中 断 (在 第 2 步 ， 已 经 把 位 图 
保存 在 pending 局 部 变量 中 )， 


5， 执行 1ocal_ira_enablef) 来 沿 活 本 地 中 断 。 


6.， 根据 局 部 变量 pending 每 一 位 的 设置 ， 执 行 对 应 的 软 中 断 处 理 函 数 。 回 忆 一 下 ， 
下 标 为 n 的 软 中 断 消 数 的 地 址 存放 在 softirg vec[n]->action 变量 中 ，。 


7. 执行 local_irad disable(}) 以 禁用 本 地 中 断 。 

g， 把 本 地 CPU 的 软 中 断 位 掩 码 复制 到 局 部 变量 pending 中 ， 并 且 再 次 递减 循环 计 
数 粥 。 

9 如 果 pending 不 为 0, 那么 从 最 后 一 次 循环 开始 , 至 少 有 一 个 软 中 断 被 激活 ， 而 
且 循 环 计 数 器 仍然 是 正 数 ， 跳 转 回 到 第 4 步 。 


10. 如 果 还 有 更 多 的 挂 起 软 中 断 ， 则 调用 wakeup_softirqd() 唤 醒 内 核 线程 来 处 理 本 
地 CPU 的 软 中 断 ( 见 下 一 节 )。 


11. 软 中 断 计 数 器 减 1， 因 而 重新 激活 可 延迟 国 数 。 


ksoftirqd 内 核 线程 


在 最 近 的 内 核 版 本 中 ， 每 个 CPU 都 有 自己 的 ksoftirgd/n 内 核 线程 (这 里 ，n 为 CPU 的 
逻辑 号 )。 每 个 ksoftirgd/n 内 核 线程 都 运行 ksoftirqda() 国 数 ， 该 国 数 实 际 上 执行 下 列 
的 循环 : 


fort{t:;} 1 
set_current_ state (TASK_ INTERRUPTIBLE }); 
schedule!(); 
fs now in TASK_ RUNNING state */ 
while (local_softirdqg pending{})} 1 
preempt disablel(); 
do_softirg{(}):; 
preempt_ enable(); 
cond_reschedt():; 

} 


当 内 核 线程 被 唤醒 时 ， 就 检查 local_softirq pending() 中 的 软 中 断 位 掩 码 并 在 必要 时 
调用 do_softirq()。 如 果 没 有 挂 起 的 软 中 断 ， 函 数 把 当前 进程 状态 置 为 
TASK_INTERRUPTIBLE, 随后 , 如 果 当 前 进程 需要 (当前 thread_info 的 TIF_NEED_RESCHED 
标志 被 设置 ) 就 调用 cond_resched() 函 数 来 实现 进程 切换 。 
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ksoftirqd/n 内 核 线程 为 重要 而 难以 平衡 的 同 题 提供 了 解决 方案 。 


软 中 断 函 数 可 以 重新 激活 自己 ; 实际 上 , 网 络 软 中 断 和 tasklet 软 中 断 都 可 以 这 么 做 。 此 
外 ， 像 网 卡 上 数据 包 泛 滥 这 样 的 外 部 事件 可 能 以 高 频率 激活 软 中 断 。 


软 中 断 的 连续 高 流量 可 能 会 产生 问题 , 该 问题 就 是 由 引入 的 内 核 线程 来 解决 的 。 没有 内 
核 线程 ， 开 发 者 实际 上 就 面临 两 种 选择 策略 。 


第 一 种 策略 就 是 忽略 do_softirg() 运 行 时 新 出 现 的 软 中 断 。 换 名 话说 , do_softirq() 
尔 数 开始 执行 时 ， 确 定 哪些 软 中 断 是 挂 起 的 ， 然 后 执行 这 些 软 中 断 的 函数 。 接 下 来 ， 
do_softirq() 不 再 重新 检查 挂 起 的 软 中 断 就 终止 。 这 种 解决 方法 不 是 很 好 。 假 设 一 个 
软 中 断 了 国 数 在 ao_softirgf() 执 行 期 间 被 重新 激活 。 在 最 坏 的 情况 下 ， 即 使 机 器 空闲 ， 
也 只 有 在 下 一 次 时 钟 中 断 到 来 时 ， 该 软 中 断 才 被 再 执行 。 结 果 ， 对 网 络 开发 者 来 说 ， 软 
中 断 的 等 待 时 间 是 不 可 接受 的 。 


第 二 种 策略 在 于 不 断 地 重新 检查 挂 起 的 软 中 断 。do_softirq() 函 数 一 直 检查 挂 起 的 软 
中 断 , 只 有 在 没有 挂 起 的 软 中 断 时 才 终 止 。 尽管 这 种 解决 方法 可 能 满足 了 网 络 开发 者 的 
愿望 , 但是, 它 肯 定 会 使 系统 中 的 普通 用 户 感 到 恼怒 ; 如 果 网 卡 接收 高 频率 的 数据 包 流 ， 
或 者 如 果 一 个 软 中 断 国 数 总 是 激活 自己 ， 那 么 ，do_softira() 国 数 就 会 永 不 返回 ， 用 
户 态 程序 实际 上 就 停止 执行 。 


ksoftirqd/n 内 核 线程 试图 解决 这 种 很 难 平衡 的 丫 题 。9o_softirq() 函数 确定 哪些 软 中 断 是 
挂 起 的 , 并 执行 它们 的 函数 。 如 果 已 经 执行 的 软 中 断 又 被 激活 ，do_softirq() 则 唤醒 内 核 
线程 并 终止 (~ _9Qo_softirq() 的 第 10 步 )。 内 核 线程 有 较 低 的 优先 级 ， 因 此 用 户 程 序 就 
有 机 会 运行 但是， 如 果 机 器 空闲 ， 挂 起 的 软 中 断 就 很 快 被 执行 。 


tasklet 


tasklet 是 IO 驱动 程序 中 实现 可 延迟 国 数 的 首选 方法 。 如 前 所 述 ，tasklet 建立 在 两 个 叫 
做 HI_SOFTIRO 和 TaSKLET_SOFTIRO 的 软 中 断 之 上 。 几 个 tasklet 可 以 与 同一 个 软 中 
断 相 关联 ， 每 个 tasklet 执行 自己 的 函数 。 两 个 软 中 断 之 间 没 有 真正 的 区 别 ， 只 不 过 
do_softirag() 先 执行 HI_SOFTIRQ 的 tasklet, 后 执行 TASKLET_SOFTIROQ 的 tasklet。 


tasklet 和 高 优先 级 的 wa 分 别 存 放 在 tasklet_vec 和 tasklet_hi_vec 数组 中 。 二 
者 都 包含 类 型 为 Lasklet_head 的 NR_CPUS 个 元 素 , 每 个 元 素 都 由 一 个 指向 tasklet 描 
述 符 链表 的 指针 组 成 。tasklet 描述 符 是 一 个 tasklet_struct 类 型 的 数据 结构 ， 其 字段 如 
表 4-11 所 示 。 


Ti 


表 4-11: tasklet 描述 符 的 字段 


字段 名 描述 

next 指向 链表 中 下 一 个 描述 符 的 指针 

state tasklet 的 状态 

count 锁 计 数 器 

func 指向 tasklet 函数 的 指针 

data 一 个 无 符号 长 整数 ， 可 以 由 tasklet 函数 来 使 用 _ 





tasklet 描述 符 的 state 字段 含有 两 个 标志 : 


TASKLET STATE SCHED 
该 标志 被 设置 时 ,表示 tasklet 是 挂 起 的 ( 曾 被 调度 执行 )， 也 意味 着 tasklet 描 述 符 
被 插入 到 tasklet_vec 和 tasklet_hi_vec 数组 的 其 中 一 个 链表 中 ，。 

TASKLET STATE_RUN 
该 标志 被 设置 时 , 表示 tasklet 正 在 被 执行 ; 在 单 处 理 器 系统 上 不 使 用 这 个 标志 , 因 
为 没有 必要 检查 特定 的 tasklet 是 否 在 运行 。 


让 我 们 假定 ， 你 正在 写 一 个 设备 驱动 程序 ， 且 想 使 用 tasklet， 应 该 做 些 什 么 呢 ? 首先， 
你 应 该 分 配 一 个 新 的 tasklet_struct 数 据 结构 , 并 调用 tasklet_init() 初 始 化 它 , 读 
函数 接收 的 参数 为 tasklet 描述 符 的 地 址 、tasklet 函数 的 地 址 和 它 的 可 选 整 型 参数 。 


调用 tasklet_disable_nosync() 或 tasklet_disable{) 可 以 选择 性 地 禁止 tasklet, 这 
两 个 国 数 都 增加 tasklet 描述 符 的 count 字段 , 但 是 后 一 个 函数 只 有 在 tasklet 函数 已 经 
运行 的 实例 结束 后 才 返 回 。 为 了 重新 激 笑 你 的 tasklet， 调 用 tasklet_enable()。 


为 了 激活 tasklet， 你 应 该 根据 自己 tasklet 需要 的 优先 级 ， 调 用 tasklet_schedulel) 国 
数 或 tasklet_hi_schedule() 国 数 。 这 两 个 国 数 非 常 类 似 , 其 中 每 个 都 执行 下 列 操作 : 
1. 检查 TASKLET_STATE_SCHED 标志 ， 如 果 设 置 则 返回 (tasklet 已 经 被 调度 ) 。 
2. 调用 local_ira_save 保 存 IF 标志 的 状态 并 禁用 本 地 中 断 。 


3. ”在 tasklet_vec[n] 或 tasklet_hi_vec[n] 指 向 的 链表 的 起 始 处 增加 tasklet 描 述 
符 (n 表示 本 地 CPU 的 逻辑 号 )。 

4. 调用 raise_softirqg irgoff() 微 活 TASKLET_SOFTIRQ 或 HI_SOFTIRO 类 型 的 软 
中 断 。( 这 个 函数 与 raise_softirq() 畏 数 类 似 ， 只 是 raise_softirqg_irqoff1{) 
函数 假设 已 经 禁用 了 本 地 中 断 。) 


5. 调用 local_ira_restore 恢 复 IF 标志 的 状态 。 
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最 后 ， 让 我 们 看 一 下 tasklet 如 何 被 执行 。 我 们 从 前 一 节 知 道 ， 软 中 断 函 数 一 旦 被 激活 ， 
就 由 do_softirq() 函 数 执行 。 与 HI_SOFTIRQ 软 中 断 相 关 的 软 中 断 国 数 叫做 tasklet_ 
hi_action()， 而 与 Ta&SKLET_SOFTIRO 相 关 的 国 数 叫 做 tasklet_action()。 这 两 个 国 数 
非常 相似 ， 它 们 都 执行 下 列 操作 ; 
1. 禁用 本 地 中 断 。 
2. 获得 本 地 CPU 的 逻辑 号 n。 
3. 把 tasklet_vec[n] 或 tasklet_hi_vec[n] 指 向 的 链表 的 地 址 存 人 局 部 变量 list。 
4. ”把 tasklet_vec[nl 或 tasklet_hi_vwec[n] 的 值 赋 为 NULL ,因此 ,已 调度 的 tasklet 
描述 符 的 链表 被 清空 。 
5. 打开 本 地 中 断 。 
6. 对 于 list 指 向 的 链表 中 的 每 个 tasklet 描述 符 : 
a， 在 多 处 理 器 系统 上 ， 检查 tasklet 的 TASKLET_STATE_RUN 标志 。 
。 ”如 果 该 标志 被 设置 , 说 明 同 类 型 的 一 个 tasklet 正 在 另 一 个 CPU 上 运行 , 因 
此 ,就 把 任务 描述 符 重新 插入 到 由 tasklet_vec[n] 或 tasklet_hi_wvec [nl] 


指向 的 链表 中 ， 并 再 次 激活 TASKLET_3SOFTIRQ 或 HI_SOFTIRQ 软 中 断 。 
这 样 , 当 同 类 型 的 其 他 tasklet 在 其 他 CPU 上 运行 时 , 这 个 tasklet 就 被 延 玉 。 
。 如果 TASKLET_STATE_RUN 标志 未 被 设置 ，tasklet 就 没有 在 其 他 CPU 上 运 
行 ， 就 需要 设置 这 个 标志 ， 以 便 tasklet 国 数 不 能 在 其 他 CPU 上 执行 。 
b. 通过 查看 tasklet 描 述 符 的 count 字段 , 检查 tasklet 是 否 被 禁止 。 如果 是 , 就 清 
TASKLET-STATE-RUN 标 志 , 并 把 任务 描述 符 重 新 插入 到 由 tasklet_vec[{n] 
或 tasklet hi_vec [n] 指 癌 的 链表 中 ,然后 为 数 再 次 油 活 TASKLET_SOFTIROQ 
或 HI_SOFTIRO 软 中 断 。 


c. 如 果 tasklet 被 激活 ， 清 TASKLET_STRATE_SCHED 标 志 ,， 并 执行 tasklet 函数 。 


注意 , 除非 tasklet 函数 重新 激活 自己 , 否则 ,tasklet 的 每 次 激活 至 多 触发 tasklet 函数 的 
一 次 执行 。 


工作 队列 


在 Linux 2.6 中 引入 了 工作 队列 , 它 与 Linux 2.4 中 的 任务 队列 具有 相似 的 构造 ， 用 来 代 
替 任 务 队 列 。 它 们 允许 内 核 函 数 (非常 像 可 延迟 函数 ) 被 煌 话 ， 而 且 稍 后 由 一 种 叫做 工 
作者 线程 (worker thread) 的 特殊 内 核 线程 来 执行 。 
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尽管 可 延迟 函数 和 工作 队列 非常 相似 , 但 是 它们 的 区 别 还 是 很 大 的 。 主 要 区 别 在 于 ; 可 
延迟 函数 运行 在 中 断 上 下 文中 , 而 工作 队列 中 的 函数 运行 在 进程 上 下 文中 。 执行 可 阻塞 
函数 (例如 ， 需要 访问 磁盘 数据 块 的 函数 ) 的 唯一 方式 是 在 进程 上 下 文中 运行 。 因 为 ， 
正如 本 章 前 面 “ 中 断 和 异常 处 理 程 序 的 做 人 套 执 行 ” 一 节 所 见 , 在 中 断 上 下 文中 不 可 能 发 
生 进程 切换 。 可 延迟 函数 和 工作 队列 中 的 函数 都 不 能 访问 进程 的 用 户 态 地 址 空间 。 事实 
上 ,可 延迟 函数 被 执行 时 不 可 能 有 任何 正在 运行 的 进程 。 另 一 方面 , 工作 队列 中 的 函数 
是 由 内 核 线程 来 执行 的 ， 因 此 ， 根 本 不 存在 它 要 访问 的 用 户 态 地 址 空间 。 


工作 队列 的 数据 结构 


与 工作 队列 相关 的 主要 数据 结构 是 名 为 workqueue_struct 的 描述 符 ， 它 包括 一 个 有 
NR_CPUS 个 元 素 的 数组 ，NR_CPUS 是 系统 中 CPU 的 最 大 数量 ( 注 16)。 每 个 元 素 都 是 
cpu_workqueue_struct 类 型 的 描述 符 ， 有 关 数 据 结构 的 字段 如 表 4-12 所 示 。 


表 4-12; cpu_workqueue_struct 结构 的 字段 


字段 名 描述 

lock 保护 读数 据 结 构 的 自 旋 销 

remove_sequence flush_workqueue (} 使 用 的 序列 号 

insert_sequence flush_workqueue{) 使 用 的 序列 屋 

woOrkl1ist 挂 起 链表 的 头 结 点 

more_work 等 待 队列 ,其 中 的 工作 者 线程 因 等 待 更 多 的 工作 而 处 于 睡眠 状态 
work_done 等 待 队列 ,其 中 的 进程 由 于 等 待 工作 队列 被 刷新 而 处 于 睡眠 状态 
Wa 指向 workqueue_struct 结构 的 指针 ， 其 中 包含 该 描述 符 
thread 指 问 结 构 中 工作 者 线程 的 进程 描述 符 指针 

run_depth run_workqueue() 当 前 的 执行 深度 ( 当 工 作 队 列 链表 中 的 函数 阻 


塞 时 ， 这 个 字段 的 值 会 变 得 比 1 大 ) 
cpu_workgqueue_struct 结 构 的 worklist 字 段 是 双 癌 链表 的 头 , 链表 集中 了 工作 队列 中 
的 所 有 挂 起 函数 。work_strmuct 数据 结构 用 来 表示 每 一 个 挂 起 函数 ， 它 的 字段 如 表 4-13 
所 示 。 





注 16: 在 多 处 理 器 系统 中 复制 工作 队列 数据 结构 的 原因 是 每 CPU 本 地 数据 结构 产生 更 有 效 的 代 
码 (参见 第 五 章 “ 每 CPU 变量 ”一 节 )。 
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表 4-13: work_struct 结构 的 字段 


字段 名 描述 

pending 如 果 国 数 已 经 在 工作 队列 链表 中 ， 访 字段 值 设 为 1， 否 则 设 为 0 
Sint 指向 挂 起 函数 链表 前 一 个 或 后 一 个 元 素 的 指针 

func 挂 起 函数 的 地 址 

data 传递 给 挂 起 国 数 的 参数 ， 是 一 个 指针 

wdq_data 通常 是 指向 cpu_workqueue_struct 描述 符 的 父 结 点 的 指针 
cimer 用 于 延迟 挂 起 函数 执行 的 软 定时 器 。 

工作 队列 函数 


create_workqueue(" foo") 国 数 接收 一 个 字符 串 作 为 参数 ， 返 回 新 创建 工作 队列 的 
workqueue_struct 描 述 符 的 地 址 。 该 函数 还 创建 n 个 工作 者 线程 (n 是 当前 系统 中 有 效 
运行 的 CPU 的 个 数 ) ， 并 根据 传递 给 函数 的 字符 串 为 工作 者 线程 命名 ， 如 : foo/0,， foo/ 
] 等 等 。create_singlethread_workcoueuel() 国 数 与 之 相似 ， 但 不 管 系统 中 有 多 少 个 
CPU，create_singlethread_workqueue() 国 数 都 只 创建 一 个 工作 者 线程 。 内 核 调 用 
destroy_workqueue() 函 数 撤消 工作 队列 , 它 接收 指向 workaueue_struct 数 组 的 指针 
作为 参数 。 


queue_work |() (封装 在 work_struct 描述 符 中 ) 把 函数 插入 工作 队列 ， 它 接收 wa 和 
work 两 个 指针 。wGg 指向 workaqueue_struct 描述 符 ，work 指向 work_struct 描述 
符 。queue_work() 主 要 执行 下 面 的 步骤 : 


1. 检查 要 插入 的 函数 是 否 已 经 在 工作 队列 中 (work->pending 字段 等 于 1)， 如果 
是 就 结束 。 
2. ”把 work_struct 描述 符 加 到 工作 队列 链表 中 ， 然 后 把 work->pending 置 为 1。 


3， ”如果 工 作者 线程 在 本 地 CPU 的 cpu_workqueue_struct 描 述 符 的 more_work 等待 
队列 上 睡眠 ， 该 函数 唤醒 这 个 线程 。 


queue_delayed_work(}) 函数 和 queue_work{) 几乎 是 相同 的 ,只 是 queue_delayed_work 1!() 
国 数 多 接收 一 个 以 系统 襟 和 葵 数 (参见 第 六 章 ) 来 表示 时 间 延 迟 的 参数 , 它 用 于 确保 挂 起 孙 
数 在 执行 前 的 等 待 时 间 尽 可 能 短 。 事实 上 ,， gueue_delayed_work() 依 靠 软 定时 器 
(work_struct 描述 符 的 timer 字段) 把 work_struct 描 述 符 插入 工作 队列 链表 的 
实际 操作 向 后 推迟 了 。 如 果 相 应 的 work_structc 描述 符 还 没有 插入 工作 队列 链表 ， 
cancel_delayed_work() 就 删除 曾 被 调度 过 的 工作 队列 函数 。 


TW 


每 个 工作 者 线程 在 worker_thread{) 函 数 内 部 不 断 地 执行 循环 操作 , 因而 , 线程 在 绝 大 
多 数 时 间 里 处 于 睡眠 状态 并 等 待 某 些 工 作 被 插入 队列 。 工 作 线 程 一 旦 被 唤醒 就 调用 
run_workaueue {) 国 数 ,该 函数 从 工作 者 线程 的 工作 队列 链表 中 删除 所 有 work_struct 
描述 符 并 执行 相应 的 挂 起 函数 。 由 于 工作 队列 函数 可 以 阻塞 , 因此 , 可 以 让 工作 者 线程 
有 睡眠， 甚至 可 以 让 它 迁 移 到 另 一 个 CPU 上 恢复 执行 ( 注 17) 。 


有 些 时 候 , 内 核 必 须 等 待 工作 队列 中 的 所 有 挂 起 函数 执行 完毕 。flush_workcueue() 国 
数 接收 workqueue_struct 描 述 符 的 地 址 , 并 且 在 工作 队列 中 的 所 有 挂 起 函数 结束 之 前 
使 调用 进程 一 直 处 于 阻塞 状态 ,但 是 该 函数 不 会 等 待 在 调用 flush_workqueue() 之 后 新 
加 人 工作 队列 的 挂 起 函数 , 每 个 cpu_workaueue_struct 描 述 符 的 remove_seaquence 字 
段 和 insert_sequence 字段 用 于 识别 新 增加 的 挂 起 函数 。 , 


预定 义工 作 队 列 
在 绝 大 多 数 情 况 下 , 为 了 运行 一 个 函数 而 创建 整个 工作 者 线程 开销 太 大 了 。 因 此 ,内 核 
引入 叫做 evenis 的 预定 义工 作 队 列 , 所 有 的 内 核 开 发 者 都 可 以 随意 使 用 它 。 预 定义 工作 
队列 只 是 一 个 包括 不 同 内 核 层 函数 和 LO 驱动 程序 的 标准 工作 队列 ， 它 的 workqueue_ 
struct 描述 符 存放 在 keventda_wqg 数 组 中 。 为 了 使 用 预定 义工 作 队 列 ， 内 核 提供 表 4- 
14 中 列 出 的 函数 。 


表 4-14: 预定 义工 作 队 列 的 支持 函数 


预定 义工 作 队列 函数 等 价 的 标准 工作 队列 函数 

schedule_work (w) dUeue work!{ keventd waq,w) 

schedule_delayed _ work{w,d) dueue_delayed work (keventd_ waq,w,d) 
(在 任何 CPU 上 ) 

schedu le_delayed_work_on (cpu,w,d) queue_delayed work (keventd wq,w,d) 
(在 某 个 指定 的 CPU 上 ) 

tlush scheduled workt{) | 上 lush_wo rkaqueue (kevent d_wq) 


当 函 数 很 少 被 调用 时 ,预定 义工 作 队 列 节省 了 重要 的 系统 资源 。 另 一 方面 ,不 应 该 使 在 

预定 义工 作 队 列 中 执行 的 函数 长 时 间 处 于 阻塞 状态 ,因为 工作 队列 链表 中 的 挂 起 函数 是 

在 每 个 CPU 上 以 串 行 的 方式 执行 的 ,而 太 长 的 延迟 对 预定 闵 工作 队列 的 其 他 用 户 会 产生 

不 良 影响 。 

注 17: 非常 奇怪 , 一 个 工作 者 线程 不 仅仅 被 与 cpu_workqueue_struct 描述 村 (工作 者 线程 属于 
该 描述 符 ) 相关 的 CPU 执行， 而 且 能 被 所 有 CPU 执行 。 因此， 虽然 queue_work() 把 地 
数 插 入 本 地 CPU 队列， 但 系统 中 的 所 有 CPU 部 可 以 执行 这 个 函数 。 


1  _ _ _  _ 


除了 一 般 的 events 队列, 在 Linux2.6 中 你 还 会 发 现 一 些 专 用 的 工作 队列 。 其 中 最 重要 的 
是 块 设备 旺 使 用 的 kbiockd 工作 队列 (参见 第 十 四 章 ) 。 


从 中 断 和 异常 返回 
我 们 通过 考察 中 断 和 异常 处 理 程序 的 终止 阶段 来 结束 本 章 (从 系统 调用 返回 是 个 特例 ， 


我 们 将 在 第 十 章 给 予 描 述 )。 尽管 终止 阶段 的 主要 目的 很 清楚 , 即 恢复 某 个 程序 的 执行 ， 
但 是 ， 在 这 样 做 之 前 ， 还 需要 考虑 几 个 问题 : 


内 楼 管制 路 全 并 发 执行 的 数量 
如 果 仅 仅 只 有 一 个 ， 那 么 CPU 必须 切换 到 用 户 态 。 
莽 起 进程 的 切换 请 或 
如 果 有 任何 请 求 ， 内 核 就 必须 执行 进程 调度 ， 否 则 ， 把 控制 权 还 给 当前 进程 。 
其 起 的 信号 
如 果 一 个 信号 发 送 到 当前 进程 ， 就 必须 处 理 它 。 
尝 步 执行 樟 式 


如 果 调 试 程序 正在 跟踪 当前 进程 的 执行 ,就 必须 在 进程 切换 回 到 用 户 态 之 前 恢复 单 
步 执行 。 

Virtiual-8086 模式 
如 果 CPU 处 于 virtual-8086 模 式 , 当前 进程 正在 执行 原来 的 实 模式 程序 , 因而 必须 
以 特殊 的 方式 处 理 这 种 情况 。 


需要 使 用 一 些 标志 来 记录 挂 起 进程 切换 的 请 求 、 挂 起 信号 和 单 步 执 行 , 这 些 标 志 被 存放 
在 thread_info 描 述 符 的 flags 字 段 中 , 这 个 字段 也 存放 其 他 与 从 中 断 和 异常 返回 无 关 
的 标志 。 表 4-15 完整 地 列 出 了 与 中 断 和 异常 返回 相关 的 标志 。 


表 4-15: thread_info 描述 符 的 flags 字段 


标志 名 描述 

TIF_SYSCALL_TRACE 正在 跟踪 系统 调用 

TIF_NOTIFY_ RESUME 在 80x86 平台 上 不 使 用 

TIF_SIGPENDING 进程 有 挂 起 信和 号 

TIF_NEED_RESCHED 必须 执行 调度 程序 

TIF_SINGLESTEP 临 返回 用 户 态 前 恢复 单 步 执行 

TIF_IRET 通过 iret 而 不 是 sysexit 从 系统 调用 强行 返回 


TIF_SYSCALL_AUDIT 系统 调用 正在 被 审计 


于 汪汪 


表 4-15， thread _info 描述 符 的 flags 字段 ( 续 ) 


标志 名 描述 

TIF_POLLING_NRFLAG 空闲 进程 正在 轮 询 TIF_NEED_RESCHED 标志 

TIF_MEMDIRE 正在 撤消 进程 以 回收 内 存 (参见 第 十 七 章 “ 内 存 不 足 删除 
程序 ”一 节 ) 


从 技术 上 说 , 完成 所 有 这 些 事情 的 内 核 汇编 语言 代码 并 不 是 一 个 函数 , 因为 控制 权 从 不 返 
回 到 调用 它 的 函数 。 它 只 是 一 个 代码 片段 ， 有 两 个 不 同 的 入 口 点 ,分别 叫 做 
ret_from intr() 和 ret_from_exception()。 正 如 其 名 所 有 暗示 的 ,中断 处 理 程 序 结束 时 ， 
内 核 进入 ret_from_intr(), 而 当 异 常 处 理 程序 结束 时 , 它 进 入 ret_from_exception() ,为 
了 描述 起 来 更 容易 一 些 ， 我 们 将 把 这 两 个 人 口 点 当 作 函数 来 讨论 。 


图 4-6 是 关于 两 个 入 口 点 的 完整 的 流程 图 。 灰色 的 框图 涉及 实现 内 核 抢 占 (参见 第 五 章 ) 
的 汇编 语言 指令 , 如 果 你 只 想 了 解 不 支持 抢占 的 内 核 都 做 了 些 什 么 , 就 可 以 忽略 这 些 灰 
色 的 框图 。 在 流程 图 中 ， 人 口 点 ret_frcm_exception() 和 ret_from_intr1() 看 起 来 非 
常 相似 ,它们 的 唯一 区 别 是 : 如 果 内 核 在 编译 时 选择 了 支持 内 核 抢 占 ， 那 么 从 异常 返回 
时 要 立刻 禁用 本 地 中 断 。 


流程 图 大 致 给 出 了 恢复 执行 被 中 断 的 程序 所 必需 的 步骤 。 现在 , 我 们 要 通过 讨论 汇编 语 
言 代码 来 详细 描述 这 个 过 程 。 


入 口 点 
ret from intr{) 和 ret_from exception() 人 口 点 本 质 上 相当 于 下 面 这 段 和 汇编 语言 代码 : 


ret_from exception: 
cli ; missing if kernel preemption is not supported 
ret _ from_ intr: 
movl] S$-981392, Sebp ; -4036 if multiple Kernel Mode stacks are used 
andl $esp, ®ebp 
mov]l OxX30 (Sesp}), $eax 
movb Dx2c(%esp), $al 
testl SOxO0O00200034, $Ceax 
nz resume_ Userspace 
jpm resume_kernel 


回忆 前 面 对 handle_IRQ_event () 描 述 的 第 3 步 , 在 中 断 返 回 时 , 本 地 中 断 是 被 禁用 的 。 
因此 ， 只 有 在 从 异常 返回 时 才 使 用 cli 这 条 汇编 语言 指令 。 


内 核 把 当前 thread_info 描 述 符 的 地 址 装载 到 ebp 寄存 器 (参见 第 三 章 “标识 一 个 进程 ” 
人 
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resume Userspace: 


work pending: 


work resched: 


YES 
一 
z no ] 


work_ notifysig: 


- 一 上 if i | 


restore all: 


恢复 硬件 的 上 下 文 


4-6: 从 中 断 和 异常 返回 





接 下 来 ， 要 根据 发 生 中 断 或 异常 时 压 人 栈 中 的 cs 和 eflags 寄存 器 的 值 ， 来 确定 被 中 
断 的 程序 在 中 断 发 生 时 是 否 运行 在 用 户 态 , 或 确定 是 否 设置 了 eflags 的 Vi 标志 ( 注 18)。 
在 任何 一 种 情况 下 ， 代 码 的 执行 就 跳 转 到 resume_userspace 处 。 否 则 ， 代 码 的 执行 跳 
转 到 resume_kernel 人 处。 








注 18 : 这 个 标志 元 计 程 序 在 虚拟 8086 模式 下 执行 更 详细 的 内 容 系 见 Pentium 手册 。 


于 ae 


恢复 内 核 控 制 路 径 
如 果 被 恢复 的 程序 运行 在 内 核 态 ， 就 执行 resume_kernel 处 的 汇编 语言 代码 ， 


resume kernel: 
clii ; these three instructions are 
cmpl $0, Oxl4(%ebp) ; missing if kernel preemption 
jz need resched : is not supported 
restore all: 
POP1 $ebx 
Popl Cecx 
poOpPl Sedx 
PoOpl ®VEesl 
popl edi 
DOpl ®%ebp 
Bopl $eax 
popl $ds 
DOBl] $es 
addl $4, ®Cesp 


如 果 thread_info 描 述 符 的 preempt_count 字段 为 0 (允许 内 核 抢 占 )， 则 内 核 跳 转 到 
need_resched 处 否则， 被 中 断 的 程序 重新 开始 执行 。 函 数 用 中 断 和 异常 开始 时 保存 
的 值 装载 寄存 器 ， 然 后 通过 执行 iret 指令 结束 其 控制 。 


检查 内 核 抢 占 
执行 检查 内 核 抢占 的 代码 时 , 所 有 设 执行 完 的 内 核 控制 路 径 都 不 是 中 断 处 理 程序 , 否则 
preempt_count 字段 的 值 就 会 是 大 于 0 的 。 但 是 正如 在 本 章 “ 中 断 和 异常 处 理 程序 的 幅 
套 执行 ”一 节 所 强调 的 , 最 多 可 能 有 两 个 与 异常 (其 中 一 个 正在 结束 ) 相关 的 内 核 控 制 
路 径 。 
need_ resched: 

mowl] Dx8(%ebp), Secx 

testbh S$(l<<TIF_NEED RESCHED), %cl 

jz restore_all 

testl S$Ox00000200, 0x30 (Sesp) 

jz restore all 

call preempt_schedule_irag 

mp need rescheqd 
如 果 current->thread _ info 的 flags 字段 中 的 TIF_NEED_RESCHED 标志 为 0， 说 
明 没 有 需要 切换 的 进程 , 因此 , 程序 跳 转 到 restore_al1 处 。 如 果 正 在 被 恢复 的 内 核 控 
制 路 径 是 在 禁用 本 地 CPU 的 情况 下 运行 ， 那 么 也 跳 转 到 restore_al1 处 。 在 这 种 情况 
下 ;进程 切换 可 能 破坏 内 核 数 据 结构 (详情 参见 第 五 章 “什么 时 候 同 步 是 必需 的 ”一 节 )。 


人 一- 


如 果 需 要 进行 进程 切换 ,就 调用 preempt_schedule_irg{) 函 数 ; 它 设置 preempt_count 
字段 的 PREEMPT_ACTIVE 标志 ， 把 大 内 核 锁 计 数 器 暂时 置 为 -1 (参见 第 五 章 “ 大 内 核 
锁 ” 一 节 )， 打 开本 地 中 断 并 调用 scheaule() 以 选择 另 一 个 进程 来 运行 。 当 前 面 的 进 
程 要 恢复 时 , preempt_schedule_irqg() 使 大 内 核 计 数 器 的 值 恢复 为 以 前 的 值 , 清除 
PREEMPT_ACTIVE 标志 并 禁用 本 地 中 断 。 但 当前 进程 的 TIF_NEED_RESCHED 标志 被 
设置 ， 将 继续 调用 schedaule1() 国 数 。 


恢复 用 户 态 程序 
如 果 要 恢复 的 程序 原来 运行 在 用 户 太 ， 就 跳 转 到 resume_userspace 处 : 


resume_ userspace: 
cl1 
movl Oxa (ebp), Yecx 
andl $0x0000ffée, Secx 
Je restore_all 
jmp work_ pending 


禁用 本 地 中 断 之 后 ， 检 油 current->thread_info 的 flags 字段 的 值 。 如 果 只 设置 了 
TIF_SYSCALL_TRACE, TIF_SYSCALL_AUDIT 或 TIF_SINGLESTEP 标 志 , 就 不 做 
任何 其 他 的 事情 ， 只 是 跳 转 到 restore_all， 从 而 恢复 用 户 赤 程序 。 


检测 重 调 度 标 志 
thread_info descriptor 描述 符 的 flags 表示 在 恢复 被 中 断 的 程序 之 前 ， 需 要 完成 
额外 的 工作 。 


work_ pending: 
testb $l<<TIF_NEED RESCHED), %cl 
jz work _ notifysig 
work resched: 
call schedule 
Cli 
mp resume USerspace 


如 果 进 程 切 换 请 求 被 挂 起 ， 就 调用 schedule() 选 择 另 外 一 个 进程 投入 运行 。 当 前 面 的 
进程 要 恢复 时 ， 就 跳 转 回 到 resume_userspace 处 。 


处 理 挂 起 信和 号、 虚拟 8086 模式 和 单 步 执行 
除了 处 理 进程 切换 请 求 ， 还 有 其 他 的 工作 需要 处 理 : 


work_notifysig: 
moOV] 第 ES ， 和 把 
testl $0x00020000, 0x30{%esp) 


TW 和 19 


je 1f 


woOrk notifysig_ v86: 
pushl %ecx 
all save_v86_state 
POpPlL Secx 
mov] SeaXx, Sesp 


XOrl Sedx, Sedx 
call do_notify_resume 
jmp restore all 


如 果 用 户 态 程序 eflags 寄存 器 的 VM 控制 标志 被 设置 ， 就 调用 save_v86_statef) 国 
数 在 用 户 态 地 址 空间 建立 虚拟 8086 模 式 的 数据 结构 。 然 后 , 调用 do_notify_resume() 
国 数 处 理 挂 起 信号 和 单 步 执行 。 最 后 , 跳 转 到 restore_al1 标 记 处 , 恢复 被 中 断 的 程序 。 


第 五 章 


内 核 同步 








你 可 以 把 内 核 看 作 是 不 断 对 请 求 进 行 响 应 的 服务 器 ,这些 请 求 可 能 来 自在 CPU 上 执行 的 
进程 , 也 可 能 来 自发 出 中 断 请 求 的 外 部 设备 。 我 们 用 这 个 类 比 来 强调 内 核 的 各 个 部 分 并 
不 是 严格 按照 顺序 依次 执行 的 , 而 是 采用 交错 执行 的 方式 。 因 此 ,这些 请 求 可 能 引起 竞 
争 条 件 , 而 我 们 必须 采用 适当 的 同步 机 制 对 这 种 情况 进行 控制 。 有 关 这 些 主题 的 简要 介 
绍 可 以 参看 第 一 章 中 的 “Unix 内 核 概 述 ” 一 节 。 


本 童 开 始 部 分 我 们 先 回顾 一 下 内 核 请 求 是 何 时 以 交错 (interleave) 的 方式 执行 以 及 交错 
程度 如 何 。 然 后 我 们 将 介绍 内 核 中 所 实现 的 基本 同步 机 制 , 并 说 明 通 常情 况 下 如 何 应 用 
它们 。 最 后 ， 我 们 给 出 了 几 个 实际 的 例子 。 


内 核 如 何 为 不 同 的 请 求 提 供 服务 

为 了 更 好 地 理解 内 核 代 码 是 如 何 执行 的 , 我 们 把 内 核 看 作 必 须 满 足 两 种 请 求 的 侍者 : 一 
种 请 求 来 自 顾客 ， 另 一 种 请 求 来 自 数量 有 限 的 几 个 不 同 的 老板 。 对 不 同 的 请 求 , 侍者 采 
用 如 下 的 策略 : 

1. 老板 提出 请 求 时 ， 如 果 侍 者 正 空 闻 ， 则 侍者 开始 为 老板 服务 。 


2. 如果 老板 提出 请 求 时 侍者 正在 为 顾客 服务 , 那么 侍者 停止 为 顾客 服务 , 开始 为 老板 
服务 。 


3. 如果 一 个 老板 提出 请 求 时 侍者 正在 为 另 一 个 老板 服务 ,那么 侍者 停止 为 第 一 个 老板 
提供 服务 ， 而 开始 为 第 二 个 老板 服务 ， 服 务 完毕 再 继续 为 第 一 个 老板 服务 。 
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4. 一 个 老板 可 能 命令 侍者 停止 正在 为 顾客 提供 的 服务 。 侍 者 在 完成 对 老板 最 近 请 求 的 
服务 之 后 ， 可 能 会 暂时 不 理会 原来 的 顾客 而 去 为 新 选中 的 顾客 服务 。 


侍者 提供 的 服务 对 应 于 CPU 处 于 内 核 态 时 所 执行 的 代码 。 如 果 CPU 在 用 户 态 执行 ， 则 
侍者 被 认为 处 于 空闲 状态 。 


老板 的 请 求 相 当 于 中 断 , 而 顾客 的 请 求 相 当 于 用 户 态 进 程 发 出 的 系统 调用 或 异常 。 正 如 我 
们 将 在 第 十 章 详细 描述 的 , 请 求 内 核 服务 的 用 户 态 进 程 必 须发 出 适当 的 指令 (在 80x86 上 
是 int $0x80 或 sysenter 指 令 )。 这 些 指令 引起 一 个 异常 ， 它 迫使 CPU 从 用 户 态 切换 到 
内 核 态 。 在 本 章 的 其 余部 分 ， 我 们 把 系统 调用 和 通常 的 异常 都 笼统 地 表示 为 “异常 "。 


细心 的 读者 已 经 把 前 三 条 原则 和 第 四 章 “ 中 断 和 异常 处 理 程序 的 嫩 套 执行 ”一 节 所 描述 
的 内 核 控 制 路 径 的 侍 套 联系 起 来 了 。 第 四 条 原则 与 Linux 2.6 内 核 中 最 有 趣 的 新 特点 相 
关 ， 即 内 核 抢 占 (kernel preemption ) 。 


内 核 抢 占 


要 给 内 核 抢 占 下 一 个 精确 的 定义 简直 太 困 难 了。 作为 第 一 种 尝试 , 我们 说 : 如 果 进 程 正 
执行 内 核 国 数 时 , 即 它 在 内 核 态 运 行 时 ， 允许 发 生 内 核 切 换 (被 替换 的 进程 是 正 执行 内 
核 函 数 的 进程 ), 这 个 内 核 就 是 抢占 的 。 遗憾 的 是 , 在 Linux 中 (在 所 有 其 他 的 操作 系统 
中 也 一 样 )， 情 况 要 复杂 得 多 。 


。 “无 论 在 抢占 内 核 还 是 非 抢 占 内 核 中 , 运行 在 内 核 态 的 进程 都 可 以 自动 放弃 CPU , 比 
如 , 其 原因 可 能 是 , 进程 由 于 等 待 资源 而 不 得 不 转 和 人 睡眠 状态 。 我 们 将 把 这 种 进程 
切换 称 为 计划 性 进程 切换 。 但 是 , 抢占 式 内 核 在 啊 应 引起 进程 切换 的 异步 事件 ( 例 
如 唤醒 高 优先 权 进 程 的 中 断 处 理 程 序 ) 的 方式 上 与 非 抢占 的 内 核 是 有 差别 的 , 我 们 
将 把 这 种 进程 切换 称 做 强制 性 进程 切换 。 

。 “所 有 的 进程 切换 都 由 宏 switch_to 来 完成 。 在 抢占 内 核 和 非 抢占 内 核 中 , 当 进 程 执 
行 完 某 些 具有 内 核 功能 的 线程 ， 而 且 调度 程序 被 调用 后 ， 就 发 生 进 程 切 换 。 不 过 ， 
在 非 抢 占 内 核 中 , 当前 进程 是 不 可 能 被 蔡 换 的 , 除非 它 打算 切换 到 用 户 态 (参见 第 
三 章 “ 执 行进 程 切换 “一 节 )。 

因此 , 抢占 内 核 的 主要 特点 是 : 一 个 在 内 核 态 运行 的 进程 ,可 能 在 执行 内 核 函数 期 间 被 

另外 一 个 进程 取代 。 


让 我 们 举 一 对 实例 来 说 明 抢 占 内 核 和 非 抢占 内 核 的 区 别 。 


在 进程 A 执行 异常 处 理 程序 时 (肯定 是 在 内 核 态 )， 一 个 具有 较 高 优先 级 的 进程 B 变 为 
可 执行 状态 。 这 种 情况 是 有 可 能 出 现 的 , 例如 , 发 生 了 中 断 请 求 而 且 相 应 的 处 理 程序 唤 
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醒 了 进程 B。 如 采 内 核 是 抢占 的 ， 就 会 发 生 强 制 性 进程 切换 ， 让 进程 B 取代 进程 A。 异 
常 处 理 程序 的 执行 被 暂停 ,直到 调度 程序 再 次 选择 进程 A 时 才 恢 复 它 的 执行 。 相 反 ， 如 
果 内 核 是 非 抢 占 的 , 在 进程 A 完成 异常 处 理 程序 的 执行 之 前 是 不 会 发 生 进程 切换 的 , 除 
非 进 程 A 目 动 放弃 CPU 。 


再 看 另外 一 个 例子 , 考虑 一 个 执行 异常 处 理 程序 的 进程 已 经 用 完了 它 的 时 间 配 额 (参见 
第 七 章 “scheduler_tick()” 国 数 一 节 ) 的 情况 。 如 果 内 核 是 抢占 的 ， 进 程 可 能 会 立即 被 
取代 ， 但 如 果 内 核 是 非 抢 占 的 ， 进 程 继 续 运 行 直 到 它 执 行 完 异常 处 理 程序 或 自动 放弃 
CPU, 


使 内 核 可 抢占 的 目的 是 减少 用 户 态 进程 的 分 派 延迟 (dispatch latency)， 即 从 进程 变 为 
可 执行 状态 到 它 实 际 开始 运行 之 间 的 时 间 间 隔 。 内 核 抢 占 对 执行 及 时 被 调度 的 任务 (如 : 
硬件 控制 器 、 坏 境 监视 器 、 电 影 播 放 器 等 等 ) 的 进程 确实 是 有 好 处 的 ， 因 为 它 降 低 了 这 
种 进程 被 男 一 个 运行 在 内 核 态 的 进程 延迟 的 风险 。 


使 Linux 2.6 内 核 有 具有 可 抢占 的 特性 无 需 对 支持 非 抢 占 的 旧 内 核 在 设计 上 做 太 大 的 改变 ， 
正如 在 第 四 章 “ 从 中 断 和 异常 运 回 ” 一 节 中 所 描述 的 , 当 被 current_thread_info{) 宏 
所 引用 的 thread_info 摘 述 符 的 preempt_count 字 段 大 于 0 时 , 就 禁止 内 核 抢 占 。 如 第 
四 章 中 的 表 4-10 所 示 ， 该 字段 的 编码 对 应 三 个 不 同 的 计数 器 ， 因 此 它 在 如 下 任何 一 种 
情况 发 生 时 ， 取 值 都 大 于 0: 

1. 内 核 正在 执行 中 断 服务 例 程 。 

2. 可 延迟 函数 被 禁止 ( 当 内 核 正在 执行 软 中 断 或 tasklet 时 经 常 如 此 )。 

3. 通过 把 抢占 计数 器 设置 为 正 数 而 显 式 地 禁用 内 核 抢占 。 

上 面 的 原则 告诉 我 们 : 只 有 当 内 核 正在 执行 异常 处 理 程 序 (尤其 是 系统 调用 )， 而 且 内 


核 抢 占 没 有 被 显 式 地 禁用 时 ， 才 可 能 抢占 内 核 。 此外， 正如 在 第 四 章 “ 从 中 断 和 异常 返 
回 ” 一 节 中 所 描述 的 ， 本 地 CPU 必须 打开 本 地 中 断 ， 否 则 无 法 完成 内 核 抢 占 。 


表 5-1 中 列 出 了 一 些 简单 的 宏 ， 它 们 处 理 preempt_count 字段 的 抢占 计数 器 。 
表 5-1: 处 理 抢 鼎 计数 器 子 字段 的 宏 


宏 说 明 
preempt_count ( ) 在 thread_info 摘 述 符 中 选择 Preempt_count 字段 
preempt_disable() 使 抢占 计数 器 的 值 加 1 


preempt_enable no_resched(! ) 使 抢占 计数 器 的 值 减 1 
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表 5-1: 处 理 抢占 计数 器 子 字 段 的 宏 ( 续 ) 

宏 说 明 

preempt_enable() 使 抢占 计数 器 的 值 减 1， 并 在 thread_info 描 述 符 的 
TIF_NEED_RESCHED 标志 被 置 为 1 的 情况 下 ， 调 用 


preempt_schedule () 


get_cpul) 与 preempt_disable() 相 似 , 但 要 返回 本 地 CPU 的 数量 


Put_cpu 1 ) 与 preempt_enable() 相 同 
Put_cpu_no_reschea () 与 breempt_enable_no_reschedq() 相 同 


preempt_enapble() 宏 递减 抢占 计数 部 ， 然 后 检查 TIF_NEED_RESCHED 标 志 是 否 被 设 
置 (参见 第 四 章 中 的 表 4-15)。 在 这 种 情况 下 ， 进 程 切换 请 求 是 挂 起 的 ， 因 此 宏 调 用 
preempt_schedule() 函 数 ， 它 本 质 上 执行 下 面 的 代码 : 
if (!current_thread info->preempt_count && !irqgqs_ disabled(}) { 
Current_thread_info->preempt_count = PREEMPT_ACTIVE; 
schedule ():; 


current_ thread_info->preempt_count = 0; 


} 


该 函数 检查 是 否 允 许 本 地 中 断 , 以 及 当前 进程 的 preempt_count 字段 是 否 为 0， 如 果 两 
个 条 件 都 为 真 ， 它 就 调用 schedule() 选 择 另 外 一 个 进程 来 运行 。 因 此 ， 内 核 抢 占 可 能 
在 结束 内 核 控制 路 径 (通常 是 一 个 中 断 处 理 程序 ) 时 发 生 , 也 可 能 在 异常 处 理 程序 调用 
preempt_enable() 重 新 允许 内 核 抢 占 时 发 生 。 正 如 我 们 将 在 本 章 稍 后 的 “禁止 和 激活 
可 延迟 函数 ”一 刷 所 看 到 的 ， 内 核 抢 占 也 可 能 发 生 在 启用 可 延迟 图 数 的 时 候 。 


在 结束 本 节 内 容 时 , 我 们 提醒 大 家 注意 : 内核 抢占 会 引起 不 容 忽 视 的 开销 。 因 此 ,Linux 
2.6 独 具 特 色 地 允许 用 户 在 编译 内 核 时 通过 设置 选项 来 禁用 或 启用 内 核 抢 占 。 


什么 时 候 同 步 是 必需 的 

第 一 章 介 绍 了 竞争 条 件 和 进程 临界 区 的 概念 。 这 些 定义 同样 适用 于 内 核 控 制 路 径 。 在 本 
章 , 当 计 算 的 结果 依赖 于 两 个 或 两 个 以 上 的 交叉 内 核 控 制 路 径 的 嵌 套 方式 时 , 可 能 出 现 
竞争 条 件 。 临界 区 是 一 段 代 码 , 在 其 他 的 内 核 控 制 路 径 能 够 进入 临界 区 前 ,进入 临界 区 
的 内 核 控 制 路 径 必须 全 部 执行 完 这 段 代码 。 


交叉 内 核 控制 路 径 使 内 核 开 发 者 的 工作 变 得 复杂 了 :他 们 必须 特别 小 心地 识别 出 异常 处 
理 程序 、 中 断 处 理 程序 、 可 延迟 函数 和 内 核 线程 中 的 临界 区 。 一 旦 临界 区 被 确定 ， 就 必 
须 对 其 采用 适当 的 保护 措施 ， 以 确保 在 任意 时 刻 只 有 一 个 内 核 控制 路 径 处 于 临界 区 。 
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例如 , 假设 两 个 不 同 的 中 断 处 理 程序 要 访问 同一 个 包含 了 几 个 相关 变量 的 数据 结构 , 比 
如 一 个 缓冲 区 和 一 个 表示 缓冲 区 大 小 的 整 型 变量 .所 有 影响 该 数据 结构 的 语句 都 必须 放 
入 一 个 单独 的 临界 区 。 如 果 是 单 CPU 的 系统 , 可 以 采取 访问 共享 数据 结构 时 关闭 中 断 的 
方式 来 实现 临界 区 ， 因 为 只 有 在 开 中 断 的 情况 下 ， 才 可 能 发 生 内 核 控 制 路 径 的 舱 套 。 


另外 ， 如 果 相 同 的 数据 结构 仅 被 系统 调用 服务 例 程 所 访问 ， 而 且 系 统 中 只 有 一 个 CPU， 
就 可 以 非常 简单 地 通过 在 访问 共享 数据 结构 时 禁用 内 核 抢 占 功 能 来 实现 临界 区 。 


正如 你 们 所 预料 的 , 在 多 处 理 器 系统 中 , 情况 要 复杂 得 多 。 由 于 许多 CPU 可 能 同时 执行 
内 核 路 径 ， 因 此 内 核 开 发 者 不 能 假设 只 要 禁用 内 核 抢占 功 能 ,而 且 中 断 、 异 常 和 软 中 断 
处 理 程序 都 没有 访问 过 该 数据 结构 ， 就 能 保证 这 个 数据 结构 能 够 安全 地 被 访问 。 


我 们 将 在 下 一 节 看 到 内 核 提 供 了 各 种 不 同 的 同步 技术 。 内 核 设计 者 通过 选择 最 有 效 的 技 
术 解 决 了 所 有 的 同步 难题 。 


什么 时 候 同 步 是 不 必要 的 

前 一 章 所 讨论 的 一 些 设 计 上 的 选择 在 某 种 程度 上 简化 了 内 核 控 制 路 径 的 同步 ,让 我 们 简 

。 ”所 有 的 中 断 处 理 程序 响应 来 自 PIC 的 中 断 并 禁用 IRQ 线 。 此外, 在 中 断 处 理 程序 结 
束 之 前 ， 不 允许 产生 相同 的 中 断 事件 。 


. 中 断 处 理 程序 .、 软 中 断 和 taskIet 既 不 可 以 被 抢占 也 不 能 被 阻塞 , 所 以 它们 不 可 能 长 
时 间 处 于 挂 起 状态 。 在 最 坏 的 情况 下 , 它们 的 执行 将 有 轻微 的 延迟 , 因为 在 其 执行 
的 过 程 中 可 能 发 生 其 他 的 中 断 《内核 控制 路 径 的 代 套 执行 )。 


。 ”执行 中 断 处理 的 内 核 控制 路 和 从 不 能 被 执行 可 延迟 函数 或 系统 调用 服务 例 程 的 内 核 控 
制 路 径 中 断 。 


。 软 中 断 和 tasklet 不 能 在 一 个 给 定 的 CPU 上 交错 执行 。 

。 ”同一 个 tasklet 不 可 能 同时 在 几 个 CPU 上 执行 。 

以 上 的 每 一 种 设计 选择 都 可 以 被 看 做 是 一 种 约束 , 它 能 使 一 些 内 核 国 数 的 编码 变 得 更 容 
易 。 下 面 是 一 些 可 能 简化 了 的 例子 : 

。 ”中 断 处 理 程序 和 tasklet 不 必 编 写成 可 重 入 的 函数 。 

。 ，” 仅 被 软 中 断 和 tasklet 访问 的 每 CPU 变量 不 需要 同步 。 

。 ，” 仅 被 一 种 tasklet 访问 的 数据 结构 不 需要 同步 。 
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本 章 接 下 来 的 部 分 描述 在 需要 同步 的 时 候 应 该 做 些 什么 , 也 就 是 : 如 何 避 免 由 于 对 共享 
数据 的 不 安全 访问 导致 的 数据 崩溃 。 


同步 原 语 


现在 我 们 考察 一 下 在 避免 共享 数据 之 间 的 竞争 条 件 时 ,内 核 控 制 路 径 是 如 何 交 错 执行 的 。 
表 5-2 列 出 了 Linux 内 核 使 用 的 同步 技术 。 运用 范围 ”一 栏 表示 同步 技术 是 适用 于 系统 
中 的 所 有 CPU 还 是 单个 CPU。 例 如 ， 本 地 中 断 的 禁止 只 适用 于 一 个 CPU (系统 中 的 其 
他 CPU 不 受 影响 ); 相反 , 原子 操作 影响 系统 中 的 所 有 CPU ( 当 访 问 同一 个 数据 结构 时 ， 
几 个 CPU 上 的 原子 操作 不 能 交错 )。 


表 5-2: 内 核 使 用 的 各 种 同步 技术 


技术 说 明 适用 范围 
每 CPU 变量 在 CPU 之 间 复 制 数据 结构 所 有 CPU 
原子 操作 对 一 个 计数 器 原子 地 “ 读 一 修改 一 写 ” 所 有 CPU 
的 指令 
内 存 屏障 避免 指令 重新 排序 本 地 CPU 或 所 有 CPU 
自 旋 锁 加 锁 时 忙 等 所 有 CPU 
言 号 量 加 锁 时 阻塞 等 待 〈 睡 眠 ) 所 有 CPU 
顺序 锁 基于 访问 计数 器 的 锁 所 有 CPU 
本 地 中 断 的 禁止 禁止 单个 CPU 上 的 中 断 处 理 本 地 CPU 
本 地 软 中 断 的 禁止 禁止 单个 CPU 上 的 可 延迟 函数 处 理 本 地 CPU 


读 一 拷贝 一 更 新 (RCU) 通过 指针 而 不 是 锁 来 访问 共享 数据 结构 所 有 CPU 


现在 ， 让 我 们 简要 地 描述 每 种 同步 技术 。 在 后 面 “ 对 内 核 数据 结构 的 同步 访问 ”一 节 ， 
我 们 会 说 明 如 何 把 这 些 同步 技术 组 合 在 一 起 来 有 效 地 保护 内 核 数据 结构 。 


每 CPU 变量 
最 好 的 同步 技术 是 把 设计 不 需要 同步 的 内 核 放 在 首位 。 正 如 我 们 将 要 看 到 的 , 事实 上 每 
一 种 显 式 的 同步 原 语 都 有 不 容 忽视 的 性 能 开销 。 


最 简单 也 是 最 重要 的 同步 技术 包括 把 内 核 变 量 声明 为 每 CPU 变量 (per-cpu variable)。 
每 CPU 变量 主要 是 数据 结构 的 数组 ， 系 统 的 每 个 CPU 对 应 数组 的 一 个 元 素 。 


一 个 CPU 不 应 该 访问 与 其 他 CPU 对 应 的 数组 元 素 ， 另 外 ， 它 可 以 随意 读 或 修改 它 自 己 
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的 元 素 而 不 用 担心 出 现 竞争 条 件 , 因为 它 是 唯一 有 资格 这 么 做 的 CPU。 但 是 , 这 也 意味 
着 每 CPU 变量 基本 上 只 能 在 特殊 情况 下 使 用 ,也 就 是 当 它 确定 在 系统 的 CPU 上 的 数据 
在 逻辑 上 是 独立 的 时 候 。 


每 CPU 的 数组 元 素 在 主 存 中 被 排列 以 使 每 个 数据 结构 存放 在 硬件 高 速 缓存 的 不 同行 ( 参 
见 第 二 章 “ 硬 件 高 速 缓存 ”一 节 )， 因 此 ， 对 每 CPU 数组 的 并 发 访问 不 会 导致 高 速 缓存 
行 的 窃 用 和 失效 〈 这 种 操作 会 带 来 昂贵 的 系统 开销 ) 。 


虽然 每 CPU 变量 为 来 自 不 同 CPU 的 并 发 访问 提供 保护 ， 但 对 来 自 异 步 函 数 《 中 断 处 理 
程序 和 可 延迟 函数 ) 的 访问 不 提供 保护 ， 在 这 种 情况 下 需要 另外 的 同步 原 语 。 


此 外 , 在 单 处 理 器 和 多 处 理 器 系统 中 , 内 核 抢占 都 可 能 使 每 CPU 变量 产生 竞争 条 件 。 总 
的 原则 是 内 核 控 制 路 径 应 该 在 禁用 抢占 的 情况 下 访问 每 CPU 变量 。 作 为 一 个 例子 ,简单 
地 考虑 一 下 在 下 面 这 种 情况 下 会 产生 什么 后 果 一 一 一 个 内 核 控制 路 径 获 得 了 它 的 每 CPU 
变量 本 地 副本 的 地 址 , 然后 它 因 被 抢占 而 转移 到 另外 一 个 CPU 上 , 但 仍然 引用 原来 CPU 
元 素 的 地 址 。 


表 5-3 列 出 了 内 核 提 供 使 用 每 CPU 变量 的 图 数 和 安 。 
表 5-3; 为 每 CPU 变量 提供 的 函数 和 安 


宏 或 函数 名 说 明 

DEFINE_PER_CPU{type, name) 静态 分 配 一 个 每 CPU 数组 ， 数 组 名 为 name, 结构 
类 型 为 type 

per._ cpu (name, cpu) 为 CPU 选择 一 个 每 CPU 数组 元 素 ，CPU 由 参数 
cpu 指定 ， 数 组 名 称 为 name 

_ _get_cpu_var (name) 选择 每 CPU 数组 name 的 本 地 CPU 元 素 

get_cpu_var (name) 先 禁用 内 核 抢 占 ,然后 在 每 CPU 数组 name 中 ,为 
本 地 CPU 选择 元 素 

put_cpu_var (name) 启用 内 核 抢 占 (不 使 用 name) 

alloc_percpu (type) 动态 分 配 type 类 型 数据 结构 的 每 CPU 数组 ， 并 
返回 它 的 地 址 

free_percpu (pointer) 释放 被 动态 分 配 的 每 CPU 数组 ，pointer 指示 其 
地 址 

per_cpu_ptr (pointer, cpu) 返回 每 CPU 数组 中 与 参数 cpu 对 应 的 CPU 元 素 地 


址 ， 参 数 pointer 给 出 数组 地 址 
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原子 操作 
若干 汇编 语言 指令 具有“ 读 一 修改 一 写 ” 类 型 一 一 也 就 是 说 ， 它 们 访问 存储 器 单元 两 
次 ， 第 一 次 读 原 值 ， 第 二 次 写 新 值 。 


假定 运行 在 两 个 CPU 上 的 两 个 内 核 控 制 路 径 试图 通过 执行 非 原子 操作 来 同时 “ 读 一 修改 
一 写 ” 同 一 存储 器 单元 。 首 先 , 两 个 CPU 都 试图 读 同 一 单元 , 但 是 存储 器 仲裁 器 (对 访 
问 RAM 已 片 的 操作 进行 串 行 化 的 硬件 电路 ) 插手 ， 只 允许 其 中 的 一 个 访问 而 让 另 一 个 
延迟 。 然而, 当 第 一 个 读 操作 已 经 完成 后 , 延迟 的 CPU 从 那个 存储 器 单元 正好 读 到 同一 
个 〈 旧 ) 值 。 然 后 ,两 个 CPU 都 试图 向 那个 存储 器 单元 写 一 新 值 ， 总 线 存储 器 访问 再 一 
次 被 存储 器 仲裁 器 串 行 化 ,最 终 ,两 个 写 操作 都 成 功 。 但 是 ,全 局 的 结果 是 不 对 的 ,因为 
两 个 CPU 写 入 同一 (新) 值 。 因 此， 两 个 交错 的 “ 读 一 修改 一 写 ” 操 作成 了 一 个 单独 的 
操作 。 


避免 由 于 “ 读 一 修改 - 写 ” 指令 引起 的 竞争 条 件 的 最 容易 的 办 法 ， 就 是 确保 这 样 的 操作 
在 芯片 级 是 原子 的 。 任 何 一 个 这 样 的 操作 都 必须 以 单个 指令 执行 , 中 间 不 能 中 断 , 且 避 
免 其 他 的 CPU 访问 同一 存储 器 单元 。 这 些 很 小 的 原子 操作 (atomic operations) 可 以 建 
立 在 其 他 更 灵活 机 制 的 基础 之 上 以 创建 临界 区 。 


让 我 们 根据 那个 分 类 来 回顾 一 下 80x86 的 指令 : 

。 ”进行 零 次 或 一 次 对 齐 内 存 访问 的 汇编 指令 是 原子 的 ( 注 1)。 

。 ”如 果 在 读 操 作 之 后 、 写 操作 之 前 没有 其 他 处 理 器 占用 内 存 总 线 , 那么 从 内 存 中 读 取 
数据 、 更 新 数据 并 把 更 新 后 的 数据 写 回 内 存 中 的 这 些 “ 读 一 修改 一 写 ” 汇编 语言 指 
令 (例如 inc 或 dec) 是 原子 的 。 当 然 ， 在 单 处 理 器 系统 中 ， 永 远 都 不 会 发 生 内 
存 总 线 窃 用 的 情况 。 


。 ”操作 码 前 组 是 1ock 字 节 《0xf0) 的 “ 读 一 修改 一 写 ” 汇 编 语言 指令 即使 在 多 处 理 
器 系统 中 也 是 原子 的 。 当 控制 单元 检测 到 这 个 前 组 时 ,， 束 “锁定 ”内存 总 线 ， 直 到 
这 条 指令 执行 完成 为 止 。 因 此 , 当 加 锁 的 指令 执行 时 , 其 他 处 理 器 不 能 访问 这 个 内 
仔 单 元。 

。 ”操作 码 前 缀 是 一 个 rep 字 节 (0xf2, 0xf£f3) 的 汇编 语言 指令 不 是 原子 的 , 这 条 指 
令 强 行 让 控制 单元 多 次 重复 执行 相同 的 指令 ,控制 单元 在 执行 新 的 循环 之 前 要 检查 
挂 起 的 中 断 。 





注 |: 当 数 据 项 的 地 址 是 以 字 节 为 单位 的 整数 倍 时 ， 数 据 项 在 内 看 中 被 对 齐 。 例 如 ， 一 个 对 齐 
的 短 整数 的 地 址 必须 是 2 的 整数 倍 ,， 而 对 齐 的 整数 的 地 址 必须 是 4 的 整数 配 。 一 般 来 说 ， 
非 对 齐 的 内 存 态 问 不 是 原子 的 。 
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在 你 编写 C 代码 程序 时 ， 并 不 能 保证 编译 器 会 为 a=a+1l 或 甚至 像 af++ 这 样 的 操作 使 用 
一 个 原子 指令 。 因 此 ，Linux 内 核 提供 了 一 个 专门 的 atomic 上 类 型 (一 个 原子 访问 计数 
器 ) 和 一 些 专门 的 国 数 和 宏 (参见 表 5-4), 这 些 函 数 和 宏 作 用 于 atomic_t 类 型 的 变量 ， 
并 当 作 单独 的 、 原 子 的 汇编 语言 指令 来 使 用 。 在 多 处 理 器 系统 中 , 每 条 这 样 的 指令 都 有 


一 个 lock 字 市 的 前 级 。 


表 5-4: Linux 中 的 原子 操作 
函数 


Aatomic_read (v) 
Aatomic_ set {v,1) 
atomic_add (i,yv) 
atomic._sub (1,yv) 
atomic_sub angd test (i, v) 
atomic_inc{(v) 
atomic_dect{yv) 
atomic_dec. and_test (V) 
Aatomic_inc _ and testl{yv) 
Aatomic_add negativel(i, v) 
Aatomic_inc return(v) 
Aatomic dec_return{(v) | 
atomic add return(i, 


V) 


atomic_sub return(i, v) 


说 明 

返回 *v 

把 *v 置 成 i 

给 *v 增加 i 

从 *v 中 减 去 i 

从 *v 中 减 去 i, 如 果 结 果 为 0， 则 返回 1， 否则 ， 返 回 0 
把 1 加 到 *v 

从 *v 减 1 

从 *v 减 1， 如 果 结 果 为 0， 则 返回 1， 否则， 返回 0 
把 1 加 到 *v， 如 果 结 果 为 0， 则 返回 1， 人 否则， 返回 0 
把 i 加 到 *v， 如 果 结 果 为 负 ， 则 返回 1， 否则， 返回 0 
把 1 加 到 *v, 返回 *v 的 新 值 

从 *v 减 1 返回 *v 的 新 值 

把 i 加 到 *v, 返回 *v 的 新 值 

从 *v 减 i, 返回 *v 的 新 什 


男 一 类 原子 函数 操作 作用 于 位 掩 码 (参见 表 5-5)。 


表 5-5， Linux 中 的 原子 位 处 理 函 数 
函数 


test_bit (nr, adar) 


set_bit (nr, addr) 
Clear bit (nr, addr) 
change_bit (nr, addr) 
test_ang_ set_bit (nr, addr) 
test_and_ clear _ bit (nr, addr) 


test_and_change_bit (nr, addr) 


说 明 

返回 *addr 的 第 nr 位 的 值 

设置 *addr 的 第 nr 位 

清 *addqar 的 第 nz 位 

转换 *adgdr 的 第 nr 位 

设置 *adqar 的 第 nr 位 ， 并 返回 它 的 原 值 
清 *adar 的 第 nr 位 ， 并 返回 它 的 原 值 
转换 *addqzr 的 第 nr 位 ， 并 返回 它 的 原 值 
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表 5-5: Linux 中 的 原子 位 处 理 函 数 ( 续 ) 


函数 说 明 

atomic_clear_mask (mask，adqdr) 清 mask 指定 的 *addr 的 所 有 位 
atomic_set_mask (mask, addr) 设置 mask 指定 的 *adqdqr 的 所 有 位 
优化 和 内 存 屏障 


当 使 用 优化 的 编译 器 时 ,你 千 万 不 要 认为 指令 会 严格 按 它们 在 源 代码 中 出 现 的 顺序 执行 。 
例如 ， 编 译 器 可 能 重新 安排 汇编 语言 指令 以 使 寄存 器 以 最 优 的 方式 使 用 。 此 外 ， 现 代 
CPU 通常 并 行 地 执行 者 干 条 指令 , 且 可 能 重新 安排 内 存 访 问 。 这 种 重新 排序 可 以 极 大 地 
加 速 程序 的 执行 。 


然而 ， 当 处 理 同 步 时 ， 必 须 避 免 指令 重新 排序 。 如 采 放 在 同步 原 语 之 后 的 一 条 指令 在 同 
步 原 语 本 身 之 前 执行 ， 事 情 很 快 就 会 变 得 失控 。 事实 上 , 所 有 的 同步 原 语 起 优化 和 内 存 
屏障 的 作用 。 


优化 屏障 (optimization parrier) 原 语 保证 编译 程序 不 会 襄 靖 放 在 原 语 操作 之 前 的 汇编 语 
言 指 令 和 放 在 原 语 操作 之 后 的 汇编 语言 指令 , 这 些 汇 编 语 言 指 令 在 C 中 都 有 对 应 的 语句 。 
在 Linux 中 ， 优 化 屏障 就 是 barrier () 宏 ， 它 展开 为 asm volatile(""::: "memory" )。 
指令 asm 告 诉 编译 程序 要 揪 入 汇编 语言 片段 〈 这 种 情况 下 为 空 ) 。volatile 关 键 字 禁止 
编译 器 把 asm 指 令 与 程序 中 的 其 他 指令 重新 组 合 , memory 关键 字 强 制 编译 器 假定 RAM 
中 的 所 有 内 存单 元 已 经 被 汇编 语言 指令 修改 ， 因此 , 编译 器 不 能 使 用 存放 在 CPU 寄存 器 
中 的 内 存单 元 的 值 来 优化 asm 指 令 前 的 代码 。 注意, 优化 屏障 并 不 保证 不 使 当前 CPU 把 
汇编 语言 指令 混在 一 起 执行 一 一 这 是 内 存 屏 障 的 工作 。 


内 存 屏障 (memory barrier) 原 语 确 保 ， 在原 语 之 后 的 操作 开始 执行 之 前 ， 原 语 之 前 的 
操作 已 经 完成 。 因 此 ， 内 存 屏 障 类 似 于 防火 墙 ， 让 任何 汇编 语言 指令 都 不 能 通过 。 
在 80x86 处 理 器 中 , 下 列 种 类 的 汇编 语言 指令 是 “ 串 行 的 ， 因 为 它们 起 内 存 屏障 的 作用 : 


。 “对 IJO 端口 进行 操作 的 所 有 指令 。 

。 ”有 lock 前 组 的 所 有 指令 (参见 “原子 操作 ”一 市 )。 

。 写 控制 寄存 器 .系统 寄存 器 或 调试 寄存 器 的 所 有 指令 (例如 ,cli 和 sti, 用 于 修改 eflags 
寄存 器 的 正 标 志 的 状态 )。 

a 在 Pentium 4 微 处 理 器 中 引入 的 汇编 语言 指令 lfence、sfence 和 mfence, 它们 分 
别 有 效 地 实现 读 内 存 屏 障 、 写 内 存 屏 障 和 读 一 写 内 存 屏 障 。 
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。 ”少数 专门 的 汇编 语言 指令 , 终止 中 断 处 理 程序 或 异常 处 理 程序 的 iret 指令 就 是 其 
中 的 一 个 。 


Linux 使 用 六 个 内 存 屏 障 原 语 , 如 表 5-6 所 示 。 这些 原 语 也 被 当 作 优化 屏障 , 因为 我 们 必 
须 保证 编译 程序 不 在 屏障 前 后 移动 汇编 语言 指令 。“ 读 内 存 屏 障 ” 仅 仅 作用 于 从 内 存 读 
的 指令 ， 而 “ 写 内 存 屏障 ”仅仅 作用 于 写 内 存 的 指令 。 内 存 屏 障 既 用 于 多 处 理 强 系统 ， 
也 用 于 单 处理 器 系统 。 当 内 存 屏障 应 该 防止 仅 出 现 于 多 处 理 器 系统 上 的 竞争 条 件 时 ,就 
使 用 smp_xxx() 原 语 ; 在 单 处 理 器 系统 上 ,它们 什么 也 不 做 。 其 他 的 内 存 屏 障 防止 出 现 
在 单 处 理 器 和 多 处 理 器 系统 上 的 竞争 条 件 。 


表 5-6: Linux 中 的 内 存 屏障 


宏 说 明 

mb ( ) 适用 于 MP 和 UP 的 内 存 屏障 
rmb ( ) 适用 于 MP 和 UP 的 读 内 存 屏 障 
wmb ( ) 适用 于 MP 和 UP 的 写 内 存 屏障 
smp_mb() 仅 适 用 于 MP 的 内 存 屏 障 
smP_rmb ( ) 仅 适 用 于 MP 的 读 内 存 屏 障 
SM 





内 存 屏障 原 语 的 实现 依赖 于 系统 的 体系 结构 。 在 80x86 微 处 理 器 上 , 如 果 CPU 支 持 lfence 
汇编 语言 指令 ， 就 把 rmb () 宏 展 开 为 asm volatile("lfence")， 否 则 就 展开 为 asm 
volatile("lock;addl] $0,0(%%esp)":::"memory")。asm 指 令 告 诉 编译 器 插入 一 些 汇 编 语 
言 指令 并 起 优化 屏障 的 作用 。lock;adal $0,0(%%esp) 汇 编 指 令 把 0 加 到 栈 顶 的 内 存单 元 ，; 
这 条 指令 本 身 没 有 价值 ， 但 是 ，1lcck 前 组 使 得 这 条 指令 成 为 CPU 的 一 个 内 存 屏 障 。 


Intel 上 的 wmb ( ) 宏 实 际 上 更 简单 ， 因 为 它 展 开 为 barrier()。 这 是 因为 Intel 处 理 粥 从 
不 对 写 内 存 访 问 重新 排序 ， 因 此 ， 没 有 必要 在 代码 中 播 和 人 一 条 串 行 化 汇编 指令 。 不 过 ， 
这 个 宏 禁止 编译 器 重新 组 合 指令 。 


注意 ,在 多 处 理 器 系统 上 , 在 前 一 节 “ 原 子 操作 ”中 描述 的 所 有 原子 操作 都 起 内 存 屏 障 
的 作用 ， 因 为 它们 使 用 了 1ock 字 节 。 


和 目 旋 锁 

一 种 广泛 应 用 的 同步 技术 是 加 锁 (locking)。 当 内 核 控制 路 径 必 须 访问 共享 数据 结构 或 
进入 临界 区 时 ， 就 需要 为 自己 获取 一 把 “ 锁 ”。 由 锁 机 制 保护 的 资源 非常 类 似 于 限制 于 
房间 内 的 资源 ， 当 某 人 进入 房间 时 ， 就 把 门 锁 上 。 如 果 内 核 控制 路 径 希 望 访 问 资源 ， 就 
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试图 获取 钥匙 “打开 门 ”"。 当 且 仪 当 资源 空间 时 ， 它 才能 成 功 。 然 后 ， 只 要 它 还 想 使 用 
这 个 资源 , 门 就 依然 锁 着 。 当 内 核 控 制 路 径 释 放 了 锁 时 , 门 就 打开 ， 另 一 个 内 核 控 制 路 
径 就 可 以 进入 房间 。 


图 5-1 显示 了 锁 的 使 用 。5 个 内 核 控制 路 径 (P,，P, ，P,，P; 和 P.,) 试图 访问 两 个 临界 区 
(C, 和 C,)。 内 核 控制 路 径 P。 正 在 C, 中 ,而 P; 和 P., 正 等 待 进入 Ci。 同时 ，P, 正 在 C, 中 ， 
而 P; 正 在 等 待 进 入 C;。 注 意 Po 和 P, 可 以 并 行 运行 。 临 界 区 C; 的 锁 现 在 打开 着 ， 因 为 没 
有 内 核 控制 路 径 需 要 进入 C;。 








5-1: 用 几 个 锁 保 护 临 界 区 


自 旋 锁 (spin lock) 是 用 来 在 多 处 理 器 环境 中 工作 的 一 种 特殊 的 锁 。 如 果 内 核 控制 路 径 
发 现 自 旋 锁 “ 开 着 "， 就 获取 锁 并 继续 自己 的 执行 。 相 反 ， 如 果 内 核 控 制 路 径 发 现 销 由 
运行 在 男 一 个 CPU 上 的 内 核 控 制 路 径 “ 锁 着 ”, 就 在 周围 “旋转 ”, 反复 执行 一 条 紧凑 的 
人 循环 指令 ， 直 到 销 被 释放 。 


自 旋 锁 的 循环 指令 表示 “ 忙 等 *。 即 使 等 待 的 内 核 控 制 路 径 无 事 可 做 (除了 浪费 时 间 )， 
它 也 在 CPU 上 保持 运行 。 不过, 目 旋 锁 通常 非常 方便 ,因为 很 多 内 核资 源 只 锁 1 毫 秒 的 
时 间 片 段 ， 所 以 说 ， 释 放 CPU 和 随后 又 获得 CPU 都 不 会 消耗 多 少时 间 。 


一 般 来 说 , 由 上 自 旋 锁 所 保护 的 每 个 临界 区 都 是 禁止 内 核 抢 占 的 。 在 单 处 理 器 系统 上 , 这 
种 锁 本 身 并 不 起 锁 的 作用 , 自 旋 锁 原 语 仅 仅 是 禁止 或 启用 内 核 抢占 。 请 注意 , 在 自 旋 锁 
忙 等 期 间 ， 内 核 抢占 还 是 有 效 的 , 因此, 等 待 自 旋 锁 释放 的 进程 有 可 能 被 更 高 优先 级 的 
进程 替代 。 


在 Linux 中 ， 每 个 自 旋 锁 都 用 spinlock_t 结构 表示 ， 其 中 包含 两 个 字段 : 
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Slock 
该 字段 表示 自 旋 锁 的 状态 : 值 为 1 表示 “未 加 锁 ” 状 态 , 而 任何 负数 和 0 都 表示 “加 
锁 ” 状 态 。 

break_ lock 


表示 进程 正在 忙 等 自 旋 锁 (只 在 内 核 支 持 SMP 和 内 核 抢 占 的 情况 下 使 用 该 标志 )。 


表 5-7 所 示 的 六 个 宏 用 于 初始 化 , 测试 及 设置 自 旋 锁 。 所 有 这 些 宏 都 是 基于 原子 操作 的 ， 
这 样 可 以 保证 即使 有 多 个 运行 在 不 同 CPU 上 的 进程 试图 同时 修改 自 旋 锁 , 自 旋 锁 也 能 够 
饼 正 确 地 更 新 ( 注 2)。 


表 5-7: 目 旋 锁 宏 


宏 说 明 

spin_lock_ init () 把 自 旋 锁 置 为 1 (未 销 ) 

spin_lock() 循环 ， 直 到 自 旋 锁 变 为 1 (未 锁 )， 然 后 ， 把 自 旋 锁 置 为 0 ( 锁 上 ) 
obo el 把 自 旋 锁 置 为 1 (未 销 ) 


spin_unlock_ wait() 等待， 直到 自 旋 锁 变 为 1 (未 锁 ) 
spin_is_locked!() 如 果 自 旋 锁 被 置 为 ! (未 锁 ) ， 返 回 0 和 否则， 返回 1 


spin_trylock() 把 自 旋 锁 置 为 0 ( 锁 上 )， 如 果 原 来 锁 的 值 是 ]， 则 返回 1; 否则 ， 返 
回 0 


具有 内 核 抢占 的 Spin_lock 宏 


让 我 们 来 详细 讨论 用 于 请 求 自 旋 琐 的 spin_lock 宏 。 下 面 的 描述 都 是 针对 支持 SMP 系 
统 的 抢占 式 内 核 的 。 该 宏 获取 自 旋 琐 的 地 址 slp 作为 它 的 参数 ， 并 执行 下 面 的 操作 


1. 调用 preempt_disable(}) 以 禁用 内 核 抢 鼎 。 


2. ”调用 限 数 _raw_spin_trylock()， 它 对 自 旋 锁 的 slock 字 段 执 行 原子 性 的 测试 和 
设置 操作 。 该 函数 首先 执行 等 价 于 下 列 汇编 语言 片段 的 一 些 指 令 : 


movb $V, $%al 
xchgb %al, slp->slock 


汇编 语言 指令 xchg 原子 性 地 交换 8 位 寄存 器 %al ( 存 0) 和 slp->slock 指示 的 
内 存单 元 的 内 容 。 随 后 ， 如 果 存 放 在 自 旋 锁 中 的 旧 值 (在 xchg 指令 执行 之 后 存放 
在 %al 中) 是 正 数 ， 销 数 就 返回 ]， 否 则 返回 0。 





注 2: 具有 讽刺 意味 的 是 ， 自 芒 镇 是 全 局 的 、 因 此 对 它 本 身 必 须 进行 保护 以 防止 并 发 访问 。 
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3.， ”如 果 自 旋 锁 中 的 旧 值 是 正 数 ， 宏 结束 内核 控制 路 径 已 经 获得 自 旋 锁 。 


4. 否则， 内 核 控 制 路 径 无 法 获得 自 旋 锁 ， 因 此 宏 必 须 执行 循环 一 直到 在 其 他 CPU 上 
运行 的 内 核 控 制 路 径 释 放 自 旋 锁 。 调 用 preempt_enable() 递 减 在 第 1 上 步 递 增 了 的 
抢占 计数 器 。 如果 在 执行 spin_lock 宏 之 前 内 核 抢 占 被 启用 , 那么 其 他 进程 此 时 可 
以 取代 等 待 自 旋 锁 的 进程 。 

5. ”如 果 break_lock 字 段 等 于 0, 则 把 它 设置 为 |。 通过 检测 该 字段 , 拥有 锁 并 在 其 他 
CPU 上 运行 的 进程 可 以 知道 是 否 有 其 他 进程 在 等 待 这 个 锁 。 如 果 进 程 把 持 某 个 自 旋 
锁 的 时 间 太 长 , 它 可 以 提前 释放 锁 以 使 等 待 相 同 自 旋 锁 的 进程 能 够 继续 向 前 运行 。 


6. 执行 等 待 循环 : 


while {spin_is_locked(slp) && slp->break_lock) 
cpu_relax!(}); 


宏 cpu_relax() 简 化 为 一 条 pause 汇编 语言 指令 。 在 Pentium 4 模型 中 引入 了 这 
条 指令 以 优化 自 旋 锁 循环 的 执行 。 通 过 引入 一 个 很 短 的 延迟 , 加 快 了 紧 跟 在 锁 后 面 
的 代码 的 执行 并 减少 了 能 源 消 耗 。pause 与 早先 的 80x86 微 处 理 器 模型 是 向 后 兼 
容 的 ， 因 为 它 对 应 rep; nop 指令 ， 也 就 是 对 应 空 操作 。 


7. 跳 转 回 到 第 1 步 ， 再 次 试图 获取 自 旋 锁 。 


非 抢 占 式 内 核 中 的 spin_lock 宏 


如 果 在 内 核 编译 时 没有 选择 内 核 抢 占 选 项 , spin_Lock 安 就 与 前 面 描述 的 spin_lock 安 
有 很 大 的 区 别 。 在 这 种 情况 下 ， 宏 生成 一 个 汇编 语言 程序 片段 , 它 本 质 上 等 价 于 下 面 紧 
竣 的 忙 等 待 ( 注 3): 
1: lock; decb slp->slock 
jns 3f 
2: pause 
cmpb $0,slp->slock 
jle 2b 
Jmp 1b 
本 
汇编 语言 指令 decb 递减 自 旋 锁 的 值 ， 该 指令 是 原子 的 ， 因为 它 带 有 lock 字 节 前 级 。 随 
后 检测 符号 标志 ， 如 果 它 被 清 0， 说 明 自 旋 锁 被 设置 为 ! (未 锁 )， 因 此 从 标记 3 处 继续 
正常 执行 (后 级 f 表 示 标 签 是 “向 前 的 "， 它 在 程序 的 后 面 出 现 )。 否则 , 在 标签 2 处 {后 
注 3: 忙 竺 待 循环 的 实际 实现 要 稍微 复杂 些 。 标 号 2 处 的 代码 ( 仅 在 自 旋 锁 忙 时 被 执行 ) 包含 
在 另外 的 代码 段 中 ， 以便 在 大 多 数 情况 下 ( 自 旋 镇 已 经 被 释放 ) 不 要 用 不 执行 的 代码 填 
充 硬 件 高 速 缓存 。 在 我 们 的 讨论 中 ， 名 略 了 这 些 优化 细节 。 
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缀 b 表 示 “ 向 后 的 ”标签 ) 执行 紧 次 循环 直到 自 旋 锁 出 现 正 值 。 然 后 从 标签 1 处 开始 重 
新 执行 ， 因 为 不 检查 其 他 的 处 理 器 是 否 抢占 了 锁 就 继续 执行 是 不 安全 的 。 


Spin_unlock 宏 
spin_unlock 宏 释 放 以 前 获得 的 自 旋 锁 ， 它 本 质 上 执行 下 列 汇编 语言 指令 : 
movb $1, Slp->Sslock 
并 在 随后 调用 preempt_enable() (如 果 不 支持 内 核 抢 占 ,，preempt_enable() 什 么 都 不 


做 ) 。 注 意 ， 因 为 现在 的 80x86 微 处 理 器 总 是 原子 地 执行 内 存 中 的 只 写 访问 ， 所 以 不 使 
用 lock 字 节 。 


读 / 写 自 旋 锁 

读 / 写 自 旋 锁 的 引入 是 为 了 增加 内 核 的 并 发 能 力 。 只 要 没有 内 核 控制 路 径 对 数据 结构 进 
行 修改 ,， 读 / 写 目 旋 锁 就 允许 多 个 内 核 控 制 路 径 同 时 读 同 一 数据 结构 。 如 有 果 一 个 内 核 控 
制 路 径 想 对 这 个 结构 进行 写 操作 ， 那 么 它 必 须 首 先 获 取 读 / 写 锁 的 写 锁 ， 写 锁 授 权 独 占 
访问 这 个 资源 。 当 然 ， 允 许 对 数据 结构 并 发 读 可 以 提高 系统 性 能 。 


图 5-2 显示 有 两 个 受 读 / 写 锁 保 护 的 临界 区 〈C, 和 C;)。 内 核 控制 路 径 R, 和 R, 正 在 同时 
读 取 C, 中 的 数据 结构 ， 而 W, 正 等 待 获取 写 锁 。 内 核 控制 路 径 W, 正 对 C, 中 的 数据 结构 
进行 写 操 作 ， 而 R, 和 W; 分 别 等 待 获 取 读 锁 和 写 锁 。 


R，- 读者 内 核 控制 路 径 
W - 写 者 内 核 控制 路 径 


or 


图 5-2: 读 / 写 自 旋 锁 











每 个 读 / 写 自 旋 锁 都 是 一 个 rwlock 上 上 结构 ,其 1ock 字 段 是 一 个 32 位 的 字段 ， 分 为 两 个 
不 同 的 部 分 : 


。 24 位 计数 器 ,表示 对 受 保护 的 数据 结构 并 发 地 进行 读 操作 的 内 核 控制 路 径 的 数目 。 
这 个 计数 器 的 二 进 制 补 码 存 放 在 这 个 字段 的 0~23 位 。 
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。 ““ 未 锁 ” 标 志 字 段 ， 当 没有 内 核 控制 路 径 在 读 或 写 时 设置 该 位 , 否则 清 0。 这 个 “未 
锁 ” 标 志 存 放 在 1ock 字段 的 第 24 位 。 


注意 ， 如 果 自 旋 锁 为 空 〈 设 置 了 “未 锁 ” 标 志 且 无 读者 ) ， 那 么 1ock 字段 的 值 为 
0x01000000， 如 果 写 者 已 经 获得 自 旋 锁 (“未 锁 ” 标 志清 0 且 无 读者 )， 那么 1ock 字段 
的 值 为 0x00000000， 如 果 一 个 、 两 个 或 多 个 进程 因为 读 获 取 了 自 旋 锁 ， 那 么 ，lock 字 
段 的 值 为 0x00ffffff，0x00fffffe 等 (“未 销 ” 标 志清 0, 读者 个 数 的 二 进 制 补 码 在 0~< 
23 位 上 )。 与 spinlock_t 结构 一 样 ，rwlock_t 结构 也 包括 break_lock 字段 。 


rwlock_init 宏 把 读 / 写 自 旋 锁 的 1ock 字段 初始 化 为 0x01000000 (“未 锁 ”)， 把 
break_lock 初始 化 为 0。 


为 读 获取 和 释放 一 个 锁 


reagd_lock 宏 ,作用 于 读 / 写 自 旋 锁 的 地 址 rwlp, 与 前 面 一 节 所 描述 的 spin_lock 宏 非 
常 相似 。 如 果 编 译 内 核 时 选择 了 内 核 抢 占 选 项 ，read_lock 宏 执行 与 spin_lock() 非 常 
相似 的 操作 , 只 有 一 点 不 同 : 该 宕 执行 _raw_read_trylock() 函 数 以 在 第 2 步 有 效 地 获 
取 读 / 写 自 旋 锁 。 
int _raw read trylock(rwlock t *lock) 
{ 
atomic_t *count = (atomic t *)lock->lock; 
Aatomic dec (count),; 
if (atomic_read{count) >= 0) 
return 1; 
atomic_inc (count), 


return 0; 


} 


读 / 写 锁 计数 器 lock 字 段 是 通过 原子 操作 来 访问 的 。 注意 ,尽管 如 此 , 但 整个 销 数 对 计 
数 器 的 操作 并 不 是 原子 性 的 。 例如, 在 用 if 语句 完成 对 计数 器 值 的 测试 之 后 并 返回 1 之 
前 ,计数 器 的 值 可 能 发 生变 人 化。 不过， 函数 能 够 正常 工作 : 实际 上 ， 只 有 在 递减 之 前 计 
数 器 的 值 不 为 0 或 负数 的 情况 下 ,函数 才 返 回 1, 因为 计数 器 等 于 0x01000000 表 示 没 有 
任何 进程 占用 锁 , 等 于 0x00f£fffff 表 示 有 一 个 读者 ,等 于 0x00000000 表 示 有 一 个 写 者 。 


如 果 编 译 内 核 时 设 有 选择 内 核 抢占 选项 ，read_lock 宏 产 生 下 面 的 汇编 语言 代码 : 


movl Srwlp->lock, eax 

lock; subl $1, (Seax) 

Jns 1f 

call _ reagd lock failead 
J 


这 里 ， _reag_lock_failed() 是 下 列 汇 编 话 言 函 数 : 
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__read lock failed: 
lock; incl (%Seax) 
ll: pause 
CImD1 $1, (Seax) 
J]s Tb 
lock; decl (%$Seax) 
]Js _ _read lock failed 
ret 


read_lock 宏 原子 地 把 自 旋 锁 的 值 减 1， 由 此 增加 读者 的 个 数 。 如 果 递 减 操作 产生 一 个 
韭 负 值 ， 就 获得 自 旋 锁 ,否则 ,调用 __read_lock_failed() 函 数 。 该 函数 原子 地 增加 
lock 字段 以 取消 由 read_lock 宏 执 行 的 递减 操作 ， 然 后 循环 ， 直 到 lock 字段 变 为 正 
数 (大 于 或 等 于 0)。, 接 下 来 ，_reagd_lock_failed() 又 试图 获取 自 旋 锁 (正好 在 cmp1l 
指令 之 后 ， 另 一 个 内 核 控 制 路 径 可 能 为 写 获 取 上 自 旋 锁 ) 。 


释放 读 自 旋 锁 是 相当 简单 的 ， 因 为 read_unlock 宏 只 需 使 用 汇编 语言 指令 简单 地 增加 
lock 字段 的 计数 器 : 


lock; Incl rwlp->lock 


以 减少 读者 的 计数 ， 然 后 调用 preempt_enable() 重 新 启用 内 核 抢 占 。 


为 写 获 取 和 释放 一 个 锁 


write_lock 宏 实 现 的 方式 与 spin_lock() 和 read_lock() 相 似 。 例 如 ， 如 果 支 持 内 核 
抢占 ， 岂 该 函数 禁用 内 核 抢占 并 通过 调用 _raw_write_trylock () 立 即 获 得 锁 。 如 果 该 
函数 返回 0， 说明 锁 已 经 被 占用 ， 因 此 ， 该 宏 像 前 面 章 节 描 述 的 那样 重新 启用 内 核 抢 占 
并 开始 忙 等 待 循环 。 


_raw_ write_trylock() 国 数 描述 如 下 ;， 


int _raw write trylock(rwlock + *]ock) 
{ 
atomic_t *count = {atomic t *)lock->lock; 
if (atomic_sub_and test (0x01000000, count)}) 
return 1; 
atomic_add (Ox01000000, count}; 
return 0; 


} 


国 数 raw_write_trylock() 从 读 / 写 自 旋 锁 的 值 中 减 去 0x01000000,， 从 而 请 除 未 上 锁 
标志 (第 24 位 )。 如 果 减 操作 产生 0 值 ( 设 有 读者 ) ， 则 获取 锁 并 返回 1: 否则 ， 国 数 原 
子 地 在 自 旋 锁 的 值 上 加 0x01000000， 以 取消 减 操 作 。 


释放 写 锁 同样 非常 简单 ， 因 为 write_unlock 宏 只 需 使 用 汇编 语言 指令 lock; adal 
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so0x01000000,rwlp 把 1ock 字 段 中 的 “未 锁 " 标识 置 位 ,然后 再 调用 preempt_enable () 
即 可 。 


顺序 锁 


当 使 用 读 / 写 自 旋 锁 时 ， 内 核 控制 路 径 发 出 的 执行 reaa_lock 或 write_lock 操 作 的 请 
求 具有 相同 的 优先 权 ; 读者 必须 等 待 ， 直 到 写 操作 完成 。 同 样 地 ， 写 者 也 必须 等 待 ， 直 
到 读 操 作 完 成 。 


Linux 2.6 中 引入 了 顺序 锁 (seqlock) ， 它 与 读 / 写 目 旋 锁 非 常 相似 ， 只 是 它 为 写 者 赋予 
了 较 高 的 优先 级 : 事实 上 , 即使 在 读者 正在 读 的 时 候 也 允许 写 者 继续 运行 。 这 种 策略 的 
好 处 是 写 者 永远 不 会 等 待 〈 除 非 另外 一 个 写 者 正在 写 ) ， 缺 点 是 有 些 时 候 读者 不 得 不 反 
复 多 次 读 相同 的 数据 直到 它 获 得 有 效 的 副本 。 


每 个 顺序 锁 都 是 包括 两 个 字段 的 seqlock_t 结 构 : 一 个 类 型 为 spinlock_t 的 lock 字 段 
和 一 个 整 型 的 sequence 字 段 ， 第 二 个 字段 是 一 个 顺序 计数 器 。 每 个 读者 都 必须 在 读数 
据 前 后 两 次 读 顺 序 计数 器 ， 并 检查 两 次 读 到 的 值 是 否 相 同 ， 如 果 不 相同 , 说 明 新 的 写 者 
已 经 开始 写 并 增加 了 顺序 计数 器 ， 因 此 暗示 读者 刚 读 到 的 数据 是 无 效 的 。 


通过 把 SEOLOCK_UNLOCKED 冉 给 变量 seqalock tt 或 执行 seqlock_init 宏 ,把 seqlock_t 
变量 初始 化 为 “未 上 锁 "。 写 者 通过 调用 write_seqlock() 和 write_sequnlock() 获 取 和 
释放 顺序 锁 。 第 一 个 国 数 获 取 seqlock 上 上 数据 结构 中 的 自 旋 锁 ， 然 后 使 顺序 计数 器 加 1， 
第 二 个 函数 再 次 增加 顺序 计数 器 ， 然 后 释放 自 旋 锁 。 这 样 可 以 保证 写 者 在 写 的 过 程 中 ， 
计数 器 的 值 是 奇数 ,并 且 当 没有 写 者 在 改变 数据 的 时 候 ,， 计数 器 的 值 是 偶数 。 读 者 执行 
下 面 的 临界 区 代码 ， 
unsigned int seq; 
do { 
Seq = read_seqbegin(&seqlock):; 
/* .. .临界 区 ... */ 

} while (read seqaretry (&kseqlock, seq)}; 
read_seqbegin() 返 回 顺序 锁 的 当前 顺序 号 ， 如 果 局 部 变量 seq 的 值 是 奇数 ( 写 者 在 
read_seqbegin() 函 数 被 调用 后 ， 正 更 新 数据 结构 )， 或 seq 的 值 与 顺序 锁 的 顺序 计数 
器 的 当前 值 不 匹配 ( 当 读 者 正 执行 临界 区 代码 时 ， 写 者 开始 工作 )，read_seqretry () 
就 返回 1。 
注意 ， 当 读者 进入 临界 区 时 ， 不 必 禁 用 内 核 抢 点 ， 另 一 方面 ， 由 于 写 者 获取 自 旋 锁 ， 所 
以 它 进入 临界 区 时 自动 禁用 内 核 抢占 。 
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并 不 是 每 一 种 资源 都 可 以 使 用 顺序 锁 来 保护 。 一般 来 说 , 必须 在 满足 下 述 条 件 时 才能 使 
用 顺序 锁 : 


。 ”被 保护 的 数据 结构 不 包括 被 写 者 修改 和 被 读者 间接 引用 的 指针 (否则 , 写 者 可 能 在 
读者 的 眼 鼻 下 就 修改 指针 )。 


。 ”读者 的 临界 区 代码 没有 副作用 (否则 , 多 个 读者 的 操作 会 与 单独 的 读 操 作 有 不 同 的 
结果 )。 


此 外 , 读者 的 临界 区 代码 应 该 简短 ,而 且 写 者 应 该 不 常 获取 顺序 锁 , 否则 ,反复 的 读 访 
问 会 引起 严重 的 开销 。 在 Linux 2.6 中 ,使 用 顺序 锁 的 典型 例子 包括 保护 一 些 与 系统 时 
间 处 理 相 关 的 数据 结构 (参见 第 六 章 )。 


读 一 拷贝 一 更 新 (RCU) 


读 一 措 贝 一 更 新 (RCU) 是 为 了 保护 在 多 数 情况 下 被 多 个 CPU 读 的 数据 结构 而 设计 的 另 
一 种 同步 技术 。RCU 允许 多 个 读者 和 写 者 并 发 执行 (相对 于 只 允许 一 个 写 者 执行 的 顺序 
锁 有 了 改进 )。 而 且 , RCU 是 不 使 用 锁 的 ， 就 是 说 ， 它 不 使 用 被 所 有 CPU 共享 的 锁 或 计 
数 絮 ,在 这 一 点 上 与 读 / 写 自 旋 锁 和 上 顺序 锁 (由 于 高 速 缓存 行 窍 用 和 失效 而 有 很 高 的 开 
销 ) 相 比 ，RCU 具有 更 大 的 优势 。 


RCU 是 如 何不 使 用 共享 数据 结构 而 令 人 惊讶 地 实现 多 个 CPU 同步 呢 ? 其 关键 的 思想 包 
括 限制 RCP 的 范围 ， 如 下 所 述 : 


1. RCU 只 保护 被 动态 分 配 并 通过 指针 引用 的 数据 结构 。 
2， 在 被 RCU 保护 的 临界 区 中 ， 任 何 内 核 控 制 路 径 都 不 能 睡眠 。 


当 内 核 控制 路 径 要 读 取 被 RCU 保护 的 数据 结构 时 ， 执 行 宏 rcu_read_lock()， 它 等 同 
于 preempt_disable()。 接 下 来 , 读者 间接 引用 该 数据 结构 指针 所 对 应 的 内 存单 元 并 开 
始 读 这 个 数据 结构 。 正 如 在 前 面 所 强调 的 , 读者 在 完成 对 数据 结构 的 读 操 作 之 前 ,是 不 
能 睡眠 的 。 用 等 同 于 preempt_enable() 的 宏 rcu_read_unlock(}) 标 记 临 界 区 的 结束 。 


我 们 可 以 想象 , 由 于 读者 几乎 不 做 任何 事情 来 防止 竞争 条 件 的 出 现 , 所 以 写 者 不 得 不 做 得 
更 多 一 些 。 事实 上 , 当 写 者 要 更 新 数据 结构 时 , 它 间接 引用 指针 并 生成 整个 数据 结构 的 副 
本 。 接 下 来 ,， 写 者 修改 这 个 副本 。 一 但 修改 完毕 ， 写 者 改变 指向 数据 结构 的 指针 ,以 使 它 
指 同 被 修改 后 的 副本 。 由 于 修改 指针 值 的 操作 是 一 个 原子 操作 , 所 以 旧 副 本 和 新 副本 对 每 
个 读者 或 写 者 都 是 可 见 的 , 在 数据 结构 中 不 会 出 现 数据 崩溃 。 尽 管 如 此 , 还 需要 内 存 屏障 
来 你 证 : 只 有 在 数据 结构 被 修改 之 后 ， 已 更 新 的 指针 对 其 他 CPU 才 是 可 见 的 。 如 果 把 自 
旋 锁 与 RCU 结合 起 来 以 禁止 写 者 的 并 发 执行 ， 就 隐 含 地 引入 了 这 样 的 内 存 屏 障 。 
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然而 ， 使 用 RCU 技术 的 真正 困难 在 于 ; 写 者 修改 指针 时 不 能 立即 释放 数据 结构 的 旧 副 
本 。 实 际 上 , 写 者 开始 修改 时 ,正在 访问 数据 结构 的 读者 可 能 还 在 读 旧 副本 。 只 有 在 CPU 
上 的 所 有 (潜在 的 ) 读者 都 执行 完 宕 rcu_read_unlock() 之 后 , 才 可 以 释放 旧 副 本 。 内 
核 要求 每 个 潜在 的 读者 在 下 面 的 操作 之 前 执行 rcu_read._unlock() 宏 : 

。 ”CPU 执行 进程 切换 (参见 前 面 的 约束 条 件 2 ) 

。 “CPU 开始 在 用 户 态 执行 

。 ”CPU 执行 空 循环 (参见 第 三 章 “ 内 核 线程 ”一 节 ) 


对 上 述 每 种 情况 ， 我 们 说 CPU 已 经 经 过 了 静止 状态 (quiescent staie ) 。 


写 者 调用 国 数 call_rcu() 来 释放 数据 结构 的 旧 副 本 。 当 所 有 的 CPU 都 通过 静止 状态 之 
后 ,call_rcu() 接 受 rcu_head 描 述 符 (通常 媒 在 要 被 释放 的 数据 结构 中 ) 的 地 址 和 将 要 
调用 的 回调 函数 的 地 址 作为 参数 。 一旦 回调 函数 被 执行 , 它 通常 释放 数据 结构 的 旧 副 本 。 


国 数 call_rcu() 把 回调 函数 和 其 参数 的 地 址 存放 在 rcu_head 描 述 符 中 , 然后 把 描述 符 
插入 回调 函数 的 每 CPU (per-CPU ) 链表 中 。 内核 每 经 过 一 个 时 钟 滴答 (参见 第 六 章 “ 更 
新 本 地 CPU 统计 数 ” 一 节 ) 就 周期 性 地 检查 本 地 CPU 是 否 经 过 了 一 个 静止 状态 。 如 果 
所 有 CPU 都 经 过 了 静止 状态 , 本 地 tasklet ( 它 的 描述 符 存放 在 每 CPU 变量 rcu_tasklet 
中 ) 就 执行 链表 中 的 所 有 回调 图 数 。 


RCU 是 Linux 2.6 中 新 加 的 功能 ， 用 在 网 络 层 和 虚拟 文件 系统 中 。 
信号 量 


我 们 在 第 一 章 “ 同 步 和 临界 区 ”一 节 引 入 了 信号 量 。 从 本 质 上 说 ， 它 们 实现 了 一 个 加 销 
原 语 ， 即 让 等 待 者 睡眠 ， 直 到 等 待 的 资源 变 为 空 闪 。 


实际 上 ，Linux 提供 两 种 信号 量 ， 


。 ”内 核 信号 量 ， 由 内 核 控制 路 径 使 用 
。 ”System V IPC 信号 量 ， 由 用 户 态 进程 使 用 


在 本 节 ， 我 们 集中 讨论 内 核 信 号 量 ， 而 IPC 信号 量 将 在 第 十 九 章 描述 。 


内 核 信 号 量 类 似 于 自 旋 钢 , 因为 当 锁 关闭 着 时 , 它 不 允许 内 核 控制 路 径 继 续 进 行 。 然 而 ， 
当 内 核 控制 路 径 试图 获取 内 核 信 号 量 所 保护 的 入 资源 时 , 相应 的 进程 被 挂 起 。 只 有 在 资 
源 被 释放 时 ， 进 程 才 再 次 变 为 可 运行 的 。 因 此， 只 有 可 以 睡眠 的 函数 才能 获取 内 核 信 号 
量 ， 中 断 处 理 程序 和 可 延迟 函数 都 不 能 使 用 内 核 信 号 量 。 
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内 核 信号 量 是 struct semaphore 类 型 的 对 象 ， 包 含 下 面 这 些 字 段 : 


GE 
存放 atomic 七 类 型 的 一 个 值 。 如 果 该 值 大 于 0, 那么 资源 就 是 空间 的 , 也 就 是 说 ， 
该 资源 现在 可 以 使 用 。 相 反 , 如 果 count 等 于 0, 那么 信号 量 是 忙 的 , 但 没有 进程 
等 待 这 个 被 保护 的 资源 。 最 后 ， 如 果 count 为 负数 ， 则 资源 是 不 可 用 的 ， 并 至 少 
有 一 个 进程 等 待 资源 。 

wait 
存放 等 待 队 列 链表 的 地 址 ， 当 前 等 待 资源 的 所 有 睡眠 进程 都 放 在 这 个 链表 中 。 当 
然 ， 如果 count 大 于 或 等 于 0， 等 待 队 列 就 为 空 。 

sleepers 
存放 一 个 标志 , 表示 是 否 有 一 些 进程 在 信号 量 上 睡眠 。 我 们 很 快 就 会 看 到 这 个 字段 
的 作用 。 


可 以 用 init_MUTEX () 和 init_MUTEX_LOCKED () 图 数 来 初始 化 互 斥 访问 所 需 的 信号 量 : 
这 两 个 宏 分 别 把 count 字段 设置 成 1 ( 互 斥 访问 的 资源 空间 ) 和 0 (对 信号 量 进行 初始 化 
的 进程 当前 互 斥 访问 的 资源 忙 )。 宏 DECLARE_MUTEX 和 DECLARE_MUTEX_LOCKED 
完成 同样 的 功能 , 但 它们 也 静态 分 配 semaphore 结 构 的 变量 。 注意 , 也 可 以 把 信和 号 量 中 
的 count 初始 化 为 任意 的 正 数值 n, 在 这 种 情况 下 ,最 多 有 个 进程 可 以 并 发 地 访问 这 
个 资源 。 


获取 和 释放 信号 量 
让 我 们 从 如 何 释 放 一 个 信号 量 来 开始 讨论 , 这 比 获取 一 个 信号 量 要 简单 得 多 。 当 进程 希 
望 释放 内 核 信 号 量 锁 时 , 就 调用 up ( ) 函数 。 这 个 函数 本 质 上 等 价 于 下 列 汇编 语言 片段 : 


movl S$sem->count, $ecx 
lock; incl (%®ecx) 
le PN i 
lea ®%ecx,%eax 
pushl ®%edx 
pushl %ecx 
call _ _up 
POpPpl $Yecx 
POP] 和 edX 
1]: 


这 里 __up() 是 下 列 C 销 数 : 


__attribute__((regparm(3})})}) void __upl(struct semaphore *sem) 
{ 
wake_ up{l&sem->wait),; 


} 
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up () 函数 增加 *sem 信 号 量 count 字段 的 值 ， 然 后 ,检查 它 的 值 是 否 大 于 0。count 的 
增加 及 其 后 jump 指令 所 测试 的 标志 的 设置 都 必须 原子 地 执行 ， 否 则 ， 另 一 个 内 核 控 制 
路 径 有 可 能 同时 访问 这 个 字段 的 值 ， 这 会 导致 灾难 性 的 后 果 。 如 果 count 大 于 0, 说 明 
没有 进程 在 等 待 队列 上 睡 卢 ， 因 此 ,什么 事 也 不 人 做。 否则， 调用 __up() 函 数 以 唤醒 一 
个 睡眠 的 进程 。 注 意 ，_ _up () 从 eax 寄存 器 接受 参数 (参见 第 三 章 “ 执 行进 程 切换 ” 
一 节 中 对 函数 __switch_to() 的 说 明 )。 


相反 ， 当 进程 希望 获取 内 核 信号 量 锁 时 , 就 调用 down() 尔 数 。down () 的 实现 相当 棘手 ， 
但 本 质 上 等 价 于 下 列 代 码 : 


down.: 
movl1l Ssem->count, Secx 
lock; decl {(%ecx).; 
jns 1f 
lea ®%ecx, %eax 
pushl %®edx 
pushl] %®ecx 
call __ down 
popl %®ecx 
popl %®edx 


这 里 _ _down () 是 下 列 C 函数 : 


__attribute__((regparm(3}))) void _._ down{struct semaphore * sem) 


{ 


DECLARE WAITOUEUE (wait, current}; 

unsigned long flags:; 

cuUrrent->state = TASK _ UNINTERRUPTIBLE:; 
spin_lock_ irqsave (ksem->wait.lock, flags),;} 

add wait queue_exclusive_locked{(&sem->wait, &wait)., 
Sem->Ssleepers++;} 


for (;;) { 
if (!atomic_ add negative(sem->sleepers-1, &sem->count}) { 
sem->sleepers = 0; 
break; 


} 
sem->sleepers = 1; 
spin_unlock_irarestore(&ksem->wait.lock, flags); 
schedule(); 
spin_lock_irqsave(&sem->wait.lock, flags); 
current->state = TASK UNINTERRUPTIBLE:; 
} 
remove_ wait queue locked(&sem->wait, &wait); 
wake_ up_locked(&ksem->walt),， 
spin unlock_irarestore(&ksem->wait .lock, flags):; 
Current->state = TASK_RUNNING; 
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down () 国 数 减少 *sem 信 号 量 的 count 字段 的 值 , 然后 检查 该 值 是 否 为 负 。 该 值 的 减 
少 和 检查 过 程 都 必须 是 原子 的 。 如 果 count 大 于 或 等 于 0, 当前 进程 获得 资源 并 继续 正 
常 执行。 否则 ，count 为 负 ， 当 前 进程 必须 挂 起 。 把 一 些 寄存 器 的 内 容 保存 在 栈 中 ， 然 
后 调用 __down()。 


从 本 质 上 说 ,__ down() 消 数 把 当前 进程 的 状态 从 TASK_RUNNING 改 变 为 TASK_UNINTERRUPTIBLE,， 
并 把 进程 放 在 信号 量 的 等 待 队 列 。 该 函数 在 访问 信号 量 结构 的 字段 之 前 ， 要 获得 用 来 保 
护 信和 号 量 等 待 队列 的 sem->wait .lock 自 旋 锁 (参见 第 三 章 “ 如 何 组 织 进程 ”), 并 禁止 本 
地 中 断 。 通 常 当 插入 和 删除 元 素 时 ， 等 待 队列 函 数 根据 需要 获取 和 释放 等 待 队 列 的 自 旋 
锁 。 国 数 _ _daown ( ) 也 用 等 待 队 列 自 旋 锁 来 保护 信号 量 数据 结构 的 其 他 字段 ， 以 使 在 其 
他 CPU 上 运行 的 进程 不 能 读 或 修改 这 些 字段 。 最 后 ，__dqown ( ) 使 用 等 待 队列 函数 的 


 _lockeq 版 本 ， 它 假设 在 调用 等 待 队列 函数 之 前 已 经 获得 了 自 旋 锁 。 


__qowm() 国 数 的 主要 任务 是 挂 起 当前 进程 ， 直 到 信号 量 被 释放 。 然 而 ， 要 实现 这 种 想 
法 是 并 不 容易 。 为 了 容易 地 理解 代码 ， 要 牢记 如 果 没 有 进程 在 信号 量 等 待 队列 上 睡眠 ， 
则 信号 量 的 sleepers 字 段 通 常 被 置 为 0， 否 则 被 置 为 1。 让 我 们 通过 考虑 几 种 典型 的 情 
况 来 解释 代码 。 


MUTEX 信号 量 打 开 fcount 等 于 1 sleepers 等 于 0) 
down 宏 仅仅 把 count 字段 置 为 0, 并 跳 到 主 程序 的 下 一 条 指令 : 因此 ,，__qown () 
国 数 根本 就 不 执行 。 

MUTEX 信号 量 关 有 历 ,， 疝 有 厂 肿 进 想 (fcount 笠 于 0, sleepers 等 于 0) 
down 宏 减 count 并 将 count 字 段 置 为 -1 有 sleepers 字 7 段 置 为 0 来 调用 _ _ down () 
函数 。 在 循环 体 的 每 次 循环 中 ， 该 国 数 检查 count 字段 是 否 为 负 。( 因 为 当 调 用 
atomic_adqd_negative() 轩 数 时 ，sleepers 等 于 0, 因此 atomic_aqq_negative() 
不 改变 count 字段 。) 


。 如果 count 字段 为 负 ，__daown() 就 调用 schequle () 挂 起 当前 进程 。coumnt 
字段 仍然 置 为 -1, 而 sleepers 字段 置 为 1。 随 后 ， 进 程 在 这 个 循环 内 恢复 自己 
的 运行 并 又 进行 测试 。 

。 如果 count 字段 不 为 负 ， 则 把 sleepers 置 为 0， 并 从 循环 退出 。__aown () 试 
图 唤醒 信号 量 等 待 队 列 中 的 另 一 个 进程 (但 在 我 们 的 情景 中 , 队列 现在 为 空 ) ， 
并 终止 保持 的 信号 量 。 在 退出 时 ，count 字 段 和 sleepers 字 段 都 置 为 0， 这 表 
示 信 号 量 关 闭 且 没有 进程 等 待 信号 量 。 

MUTEX 信和 与 重 夫 也， 有 大 他 萎 展 进 簿 (count 等 于 -1 sleepers 等 于 了 
down 宏 减 count 并 将 count 字 7 段 置 为 一 2 且 sleepers 字 段 置 为 1 来 调用 __ aown () 
函数 。 该 函数 暂时 把 sleepers 置 为 2， 然 后 通过 把 sleepers-1 加 到 count 来 取 
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消 由 down 宏 执行 的 减 操 作 。 同 时 , 该 函数 检查 count 是 否 依然 为 负 ( 在 _ _down () 
进入 临界 区 之 前 ， 持 有 信号 量 的 进程 可 能 正好 释放 了 信号 量 )。 


。 如果 count 字段 为 负 ，__daown () 国 数 把 sleepers 重新 设置 为 1， 并 调用 
schedule() 挂 起 当前 进程 。count 字段 还 是 置 为 - 1, 而 sleepers 字 段 置 为 1。 


。 如果 count 字段 不 为 负 ，__down () 函数 把 sleepers 置 为 0， 试 图 唤醒 信号 量 
等 待 队列 上 的 另 一 个 进程 ， 并 退出 持 有 的 信号 量 。 在 退出 时 ，count 字段 置 为 
0 且 sleepers 字 段 置 为 0。 这 两 个 字段 的 值 看 起 来 错 了 ， 因 为 还 有 其 他 的 进程 
在 睡眠。 然而 ， 考虑 一 下 在 等 待 队 列 上 的 另 一 个 进程 已 经 被 唤醒 。 这 个 进程 进 
行 循环 体 的 另 一 个 次 循环 ，atomic_aqddq_negative() 国 数 从 count 中 减 去 1 ， 
count 重新 变 为 -1， 此 外 ， 唤 柄 的 进程 在 重新 回去 睡眠 之 前 ， 把 sleepers 重 
置 为 1。 


可 以 很 容易 地 验证 ， 代 码 在 所 有 的 情况 下 都 正确 地 工作 。 考 虑 一 下 ，- -aown ( ) 中 的 
wake_up() 函数 至 多 唤醒 一 个 进程 ,因为 等 待 队 列 中 的 睡眠 进程 是 互 斥 的 (参见 第 三 章 
如何 组 织 进程 ”一 节 )。 


只 有 异常 处 理 程序 , 特别 是 系统 调用 服务 例 程 , 才 可 以 调用 down() 函 数 。 中断 处 理 程 序 
或 可 延迟 的 函数 不 必 调 用 down(), 因为 当 信 号 量 忙 时 , 这 个 函数 挂 起 进程 。 由 于 这 个 原 
因 ，Linux 提供 了 down_trylock() 函 数 ， 前 面 提 及 的 异步 函数 可 以 安全 地 使 用 
down_trylock() 函 数 。 该 函数 和 down() 孙 数 除 了 对 资源 繁 从 情况 的 处 理 有 所 不 同 外 , 其 
他 都 是 相同 的 。 在 资源 繁忙 时 ， 该 函数 会 立即 返回 ， 而 不 是 让 进程 去 睡眠 。 


系统 中 还 定义 了 一 个 略 有 不 同 的 函数 ， 即 down_interruptible()。 该 函数 广泛 地 用 在 
设备 驱动 程序 中 , 因为 如 果 进 程 接收 了 一 个 信号 但 在 信号 量 上 被 阻塞 , 就 允许 进程 放弃 
“down” 操 作 。 如 果 睡 眠 进程 在 获得 需要 的 资源 之 前 被 一 个 信号 唤醒 ， 那 么 该 函数 就 会 
增加 信号 量 的 count 字 段 的 值 并 返回 -EINTR。 另 一 方面 , 如果 down_interruptible() 
正常 结束 并 得 到 了 需要 的 资源 ,就 返回 0。 因 此 , 在 返回 值 是 -EINTR 时 ,设备 驱动 程序 
可 以 放弃 1O 操作 。 


最 后 , 因为 进程 通常 发 现 信 号 量 处 于 打开 状态 , 因此 , 就 可 以 优化 信号 量 函 数 。 尤 其 是 ， 
如 果 信 号 量 等 待 队 列 为 空 ,，up ( ) 函数 就 不 执行 跳 转 指令 ， 同样 ， 如 果 信 号 量 是 打开 的 ， 
down () 国 数 就 不 执行 跳 转 指令 。 信 号 量 实 现 的 复杂 性 是 由 于 极力 在 执行 流 的 主 分 支 上 避 
免费 时 的 指令 而 造成 的 。 


读 / 写 信号 量 
读 / 写 信号 量 类 似 于 前 面 “ 读 / 写 自 旋 锁 ” 一 节 描 述 的 读 / 写 自 旋 锁 ， 有 一 点 不 同 : 在 信 
号 量 再 次 变 为 打开 之 前 ， 等 符 进 程 挂 起 而 不 是 自 旋 。 
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很 多 内 核 控制 路 径 为 读 可 以 并 发 地 获取 读 / 写 信 号 量 。 但 是 ,任何 写 者 内 核 控制 路 径 必 
须 有 对 被 保护 资源 的 互 斥 访问 。 因 此 , 只 有 在 没有 内 核 控制 路 径 为 读 访问 或 写 访问 持 有 
信号 量 时 ， 才 可 以 为 写 获 取信 号 量 。 读 / 写 信 号 量 可 以 提高 内 核 中 的 并 发 度 ， 并 改善 了 
整个 系统 的 性 能 。 


内 核 以 严格 的 FIFO 顺序 处 理 等 待 读 / 写 信号 量 的 所 有 进程 。 如 果 读 者 或 写 者 进程 发 现 信 
号 量 关 闭 , 这 些 进程 就 被 插入 到 信号 量 等 待 队列 链表 的 末尾 。 当 信号 量 被 释放 时 ,就 检 
查处 于 等 待 队 列 链 表 第 一 个 位 置 的 进程 。 第 一 个 进程 常 被 唤醒。 如 果 是 一 个 写 者 进程 ， 
等 待 队 列 上 其 他 的 进程 就 继续 睡眠 。 如 果 是 一 个 读者 进程 , 那么 紧 跟 第 一 个 进程 的 其 他 
所 有 读者 进程 也 被 唤醒 并 获得 锁 。 不 过 ， 在 写 者 进程 之 后 排队 的 读者 进程 继续 睡眠 。 


每 个 读 / 写 信 号 量 都 是 由 rw_semaphore 结构 描述 的 ， 它 包含 下 列 字 有 段 : 


COunt 
存放 两 个 16 位 的 计数 器 。 其 中 最 高 16 位 计数 器 以 二 进 制 补 码 形式 存放 非 等 待 写 者 
进程 的 总 数 (0 或 1) 和 等 待 的 写 内 核 控 制 路 径 数 。 最 低 16 位 计数 器 存放 非 等 待 的 
读者 和 写 者 进程 的 总 数 。 

walit_list 
指向 等 待 进程 的 链表 。 链表 中 的 每 个 元 素 都 是 一 个 rwsem_waiter 结 构 , 该 结构 
包含 一 个 指针 和 一 个 标志 , 指针 指向 睡眠 进程 的 描述 符 , 标志 表示 进程 是 为 读 需要 
信号 量 还 是 为 写 需 要 信和 号 量 。 

walt_lock 


一 个 自 旋 锁 ， 用 于 保护 等 待 队 列 链 表 和 rw_semaphore 结构 本 身 。 


init_rwsem() 国 数 初 始 化 zw_semaphore 结 构 ， 即 把 count 字段 置 为 0，wait_lock 自 
旋 锦 置 为 未 锁 ， 而 把 wait_list 置 为 空 链 表 。 


Gown_read() 和 aqaown_write() 国 数 分别 为 读 或 写 获 取 读 / 写 信 号 量 。 同 样 ，up_read'1() 
和 up_write() 图 数 为 读 或 写 释 放 以 前 获取 的 读 / 写 信 号 量 。down_reaq_trylock() 和 
down_write _trylockf() 国 数 分 别 类 似 于 down_read() 和 aown_write() 国 数 , 但 是 ,在 
信号 量 亿 的 情况 下 , 它们 不 阻塞 进程 。 最后, 函数 downgrade_write() 自 动 把 写 锁 转换 
成 读 锁 。 这 和 个 图 数 的 实现 代码 比较 长 ,但 因为 它 与 普通 信号 量 的 实现 类 似 ， 所 以 容易 
理解 ， 我 们 就 不 再 对 它们 进行 说 明 。 


补充 原 语 


Linux 2.6 还 使 用 了 另 一 种 类 似 于 信号 量 的 原 语 : 补充 〈completion) 。 引 和 这 种 原 语 是 
为 了 解决 多 处 理 器 系统 上 发 生 的 一 种 微妙 的 竞争 条 件 , 当 进 程 A 分 配 了 一 个 临时 信号 量 
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变量 ， 把 它 初始 化 为 关闭 的 MUTEX， 并 把 其 地 址 传递 给 进程 B， 然 后 在 A 之 上 调用 
down () ， 进 程 A 打算 一 但 被 唤醒 就 撤消 该 信号 量 。 随 后 ， 运 行 在 不 同 CPU 上 的 进程 B 
在 同一 信号 量 上 调用 up () 。 然 而 ,up () 和 down () 的 目前 实现 还 允许 这 两 个 函数 在 同 
一 个 信号 量 上 并 发 执行 。 因 此 ， 进 程 A 可 以 被 唤醒 并 撤销 临时 信号 量 ， 而 进程 B 还 在 运 
行 up () 函数 。 结 果 ，up ( ) 可 能 试图 访问 一 个 不 存在 的 数据 结构 。 


当然 ， 也 可 以 改变 up () 和 down () 的 实现 以 禁止 在 同一 信号 量 上 并 发 执行 。 然 而 ， 这 
种 改变 可 能 需要 另外 的 指令 ， 这 对 于 频 移 使 用 的 函数 来 说 不 是 什么 好 事 。 


补充 是 专门 设计 来 解决 以 上 问题 的 同步 原 语 .comp1etion 数 据 结构 包含 一 个 等 待 队 列 
头 和 一 个 标志 : 
struct completion { 
unsigned int done; 
wait_ queue head_t wait; 
}; 
与 up () 对 应 的 国 数 叫 做 complete()。complete() 接 收 completion 数 据 结 构 的 地 址 作 
为 参数 ， 在 补充 等 待 队列 的 目 旋 锁 上 调用 spin_lock_irqsave(), 递增 done 字段 ， 唤 
醒 在 wait 等 待 队列 上 睡眠 的 互 斥 进程 ， 最 后 调用 spin_unlock_irqrestore()。 


与 down () 对 应 的 函数 叫做 wait_for_completion()。wait_ftor_completion() 接 收 
completion 数 据 结构 的 地 址 作为 参数 ,并 检查 done 标 志 的 值 。 如 果 该 标志 的 值 大 于 0， 
wait_for_completion() 就 终止 , 因为 这 说 明 comrplete() 已 经 在 另 一 个 CPU 上 运行 。 否 
则 ，wait_ftor_completion() 把 current 作为 一 个 互 斥 进 程 加 到 等 竺 队列 的 末尾 ， 并 把 
current 置 为 TASK_UNINTERRUPTIBLE 状态 让 其 睡眠 。 一 旦 current 被 唤醒 ， 该 函数 就 
把 current 从 等 待 队 列 中 删除 ， 然 后 ， 国 数 检查 done 标志 的 值 ， 如果 等 于 0 函数 就 结 
束 , 否 则 ,再 次 挂 起 当前 进程 ,与 complete() 函 数 中 的 情形 一 样 ,wait_for_completion() 
使 用 补充 等 待 队列 中 的 目 旋 锁 。 


补充 原 语 和 信号 量 之 间 的 真正 差别 在 于 如 何 使 用 等 待 队列 中 包含 的 自 旋 锁 。 在 补充 原 语 
中 , 自 旋 锁 用 来 确保 complete() 和 wait_for_completion() 不 会 并 发 执行 。 在 信号 量 
中 ， 自 旋 锁 用 于 避免 并 发 执行 的 down () 函数 和 弄 乱 信号 量 的 数据 结构 。 


禁止 本 地 中 断 

确保 一 组 内 核 语 句 被 当 作 一 个 临界 区 处 理 的 主要 机 制 之 一 就 是 中 断 禁止 ,即使 当 硬件 设 
备 产 生 了 一 个 IRQ 信 号 时 , 中断 禁止 也 让 内 核 控 制 路 径 继续 执行 , 因此 ,这 就 提供 了 一 
种 有 效 的 方式 ， 确 保 中 断 处 理 程序 访问 的 数据 结构 也 受到 保护 。 然 而 ， 禁 止 本 地 中 断 并 
不 保护 运行 在 另 一 个 CPU 上 的 中 断 处 理 程序 对 数据 结构 的 并 发 访问 , 因此 , 在 多 处 理 器 
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系统 上 , 禁止 本 地 中 断 经 常 与 自 旋 锁 结合 使 用 (参见 后 面 “对 内 核 数 据 结构 的 同步 访问 ” 
一 节 )。 


宏 local_irq_disable() 使 用 cli 汇编 语言 指令 关闭 本 地 CPU 上 的 中 断 ， 宏 
local_irq_enable() 使 用 sti 汇编 语言 指令 打开 被 关闭 的 中 断 。 正 如 在 第 四 章 “IRQ 
和 中 断 ” 一 节 中 说 明 的 , 汇编 语言 指令 cli 和 sti 分 别 清除 和 设置 eftlags 控制 寄存 器 
的 IF 标志。 如 果 eflags 寄存 器 的 IF 标志 被 清 0， 宏 iraqs_disabled() 产 生 等 于 1 的 
值 ， 如 果 IF 标志 被 设置 ， 该 安 也 产生 为 1 的 值 。 


当 内 核 进入 临界 区 时 ， 通 过 把 eftlags 寄 存 器 的 IF 标志 清 0 关 闭 中 断 。 但 是 ,内 核 经 党 
不 能 在 临界 区 的 末尾 简单 地 再 次 设置 这 个 标志 。 中 断 可 以 以 嵌 套 的 方式 执行 , 所 以 内 核 
不 必 知 道 当前 控制 路 径 被 执行 之 前 IF 标 志 的 值 究竟 是 什么 。 在 这 种 情况 下 , 控制 路 径 必 
须 保存 先前 赋 给 该 标志 的 值 ， 并 在 执行 结束 时 恢复 它 。 


保存 和 恢复 eflags 的 内 容 是 分 别 通 过 宏 local_irqg_ save 和 1local_irq_restore 来 实 
现 的 。 local_irqg save 宏 把 ef1ags 寄 存 器 的 内 容 找 贝 到 一 个 局 部 变量 中 , 随后 用 cli 
汇编 语言 指令 把 IF 标 志清 0。 在 临界 区 的 末尾 , 宏 1ocal_ira_restore 恢 复 eflags 原 
来 的 内 容 , 因此 ,只 是 在 这 个 控制 路 径 发 出 cl1i 汇编 语言 指令 之 前 , 中 断 被 激活 的 情况 
下 ， 中 断 才 处 于 打开 状态 。 


禁止 和 激活 可 延迟 函数 

在 第 四 章 的 “ 软 中 断 ” 一 节 ， 我们 说 明了 可 延迟 函数 可 能 在 不 可 预知 的 时 间 执 行 ( 实 际 
上 是 在 硬件 中 断 处 理 程序 结束 时 ) 。 因 此 ， 必 须 保护 可 延迟 函数 访问 的 数据 结构 使 其 避 
免 竞争 条 件 。 


禁止 可 延迟 函数 在 一 个 CPU 上 执行 的 一 种 简单 方式 就 是 禁止 在 那个 CPU 上 的 中 断 。 因 
为 没有 中 断 处 理 程序 被 激活 ， 因 此 ， 软 中 断 操作 就 不 能 异步 地 开始 。 


然而 ,我 们 在 下 一 节 会 看 到 ， 内 核 有 时 需要 只 禁止 可 延迟 函数 而 不 禁止 中 断 。 通 过 操纵 
当前 thread_info 描 述 符 preempt_count 字 段 中 存放 的 软 中 断 计 数 器 , 可 以 在 本 地 CPU 
上 激活 或 禁止 可 延迟 函数 。 


回忆 一 下 ， 如 果 软 中 断 计 数 器 是 正 数 , ao_softirq() 国 数 就 不 会 执行 软 中 断 , 而 且 , 因 
为 tasklet 在 软 中 断 之 前 被 执行 ,把 这 个 计数 器 设置 为 大 于 0 的 值 ,由 此 禁止 了 在 给 定 CPU 
上 的 所 有 可 延迟 国 数 和 软 中 断 的 执行 。 


安 1ocal_bh_ disable 给 本 地 CPU 的 软 中 断 计 数 器 加 1, 而 图 数 1oca1l_bh_enable() 从 
本 地 CPU 的 软 中 断 计 数 器 中 减 掉 1 。 内 核 因 此 能 使 用 几 个 幅 套 的 local_bh_gisable 调 
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用 , 只 有 宏 local_bh_enable 与 第 一 个 local_bh_disable 调 用 相 匹 配 , 可 延迟 函数 才 
再 次 被 激活 。 


递减 软 中 断 计数 器 之 后 ,local_bh_enable() 执 行 两 个 重要 的 操作 以 有 助 于 保证 适时 地 
执行 长 时 间 等 待 的 线程 : 


1. 检查 本 地 CPU 的 preempt_count 字 段 中 硬 中 断 计数 器 和 软 中 断 计数 器 , 如 果 这 两 
个 计数 器 的 值 都 等 于 0 而 且 有 挂 起 的 软 中 断 要 执行 ， 就 调用 do_softirqf() 来 激活 
这 些 软 中 断 ( 见 第 四 章 “ 软 中 断 ” 一 节 )。 

2. 检查 本 地 CPU 的 TIF_NEED_RESCHED 标 志 是 否 被 设置 ,如果 是 , 说明 进 程 切换 
请 求 是 挂 起 的 , 因此 调用 preempt_schedqule() 国 数 (参见 本 章 前 面 的 “内 核 抢 占 ” 
一 节 ) 。 


对 内 核 数 据 结构 的 同步 访问 
可 以 使 用 前 面 所 述 的 同步 原 语 保护 共享 数据 结构 避免 竞争 条 件 。 当 然 ， 系统 性 能 可 能 随 


所 选择 同步 原 语种 类 的 不 同 而 有 很 大 变化 。 通常 情况 下 , 内 核 开发 者 采用 下 述 由 经 验 得 
到 的 法 则 : 把 系统 中 的 并 发 度 保持 在 尽 可 能 高 的 程度 。 


系统 中 的 并 发 度 又 取决 于 两 个 主要 因素 : 


。 ”同时 运转 的 IO 设备 数 

。 ”进行 有 效 工 作 的 CPU 数 

为 了 使 IO 吞吐 量 最 大 化 ， 应 该 使 中 断 禁 止 保 持 在 很 得 的 时 间 。 正 如 第 四 章 的 “IRQ 和 
中 断 ” 一 节 描 述 的 那样 ， 当 中 断 被 禁止 时 ， 由 1O 设备 产生 的 IRQ 被 PIC 暂时 忽略 ， 因 
此 ， 就 没有 新 的 活动 在 这 种 设备 上 开始 。 

为 了 有 效 地 利用 CPU， 应 该 尽 可 能 避免 使 用 基于 自 旋 锁 的 同步 原 语 。 当 一 个 CPU 执行 


紧 指 令 循 环 等 待 自 旋 锁 打 开 时 ,是 在 浪费 宝贵 的 机 器 周期 。 就 像 我 们 前 面 所 描述 的 , 更 
精 糕 的 是 : 由 于 自 旋 锁 对 硬件 高 速 缓存 的 影响 而 使 其 对 系统 的 整体 性 能 产生 不 利 影响 。 


让 我 们 举例 说 明 在 下 列 两 种 情况 下 ， 既 可 以 维持 较 高 的 并 发 度 ， 也 可 以 达到 同步 。 


。 ”共享 的 数据 结构 是 一 个 单独 的 整数 值 , 可 以 把 它 声 明 为 atomic 上 类 型 并 使 用 原子 
操作 对 其 更 新 。 原子 操作 比 自 旋 锁 和 中 断 禁 止 都 快 , 只 有 在 几 个 内 核 控制 路 径 同时 
访问 这 个 数据 结构 时 速度 才 会 慢 下 来 。 

。 ”把 一 个 元 素 插入 到 共享 链表 的 操作 决 不 是 原子 的 , 因为 这 至 少 涉及 两 个 指针 赋值 。 
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不 过 , 内核 有 时 并 不 用 锁 或 禁止 中 断 就 可 以 执行 这 种 插入 操作 ,我 们 把 这 种 操作 的 
工作 机 制作 为 例子 来 进行 说 明 。 考虑 一 种 情况 , 系统 调用 服务 例 程 (参见 第 十 章 的 
“系统 调用 处 理 程 序 及 服务 例 程 ) 把 新 元 素 插 入 到 一 个 简单 链表 中 ,而 中 断 处 理 程 
序 或 可 延迟 函数 异步 地 查看 该 链表 。 


在 C 语言 中 ， 插 入 是 通过 下 列 指针 赋值 实现 的 : 


new->next = list element->next; 
list element->next = new:; 


在 汇编 语言 中 ,插入 简化 为 两 个 连续 的 原子 指令 ,第 一 条 指令 建立 new 元 素 的 next 
指针 , 但 不 修改 链表 。 因此 , 如 果 中 断 处 理 程序 在 第 一 条 指令 和 第 二 条 指令 执行 的 
中 间 查 看 这 个 链表 , 看 到 的 就 是 没有 新 元 素 的 链表 。 如 果 该 处 理 程序 在 第 二 条 指令 
执行 后 查看 链表 , 就 会 看 到 有 新 元 素 的 链表 。 关 键 是 , 在 任 一 种 情况 下 , 链表 都 十 
一 致 的 且 处 于 未 损坏 状态 。 然 而 , 只 有 在 中 断 处 理 程序 不 修改 链表 的 情况 下 才能 确 
保 这 种 完整 性 。 如果 修 改 了 链表 , 那么 在 new 元 素 内 刚刚 设置 的 next 指针 就 可 能 
然而 ， 开 发 者 必须 确保 两 个 赋值 操作 的 顺序 不 馈 编 译 器 或 CPU 控制 单元 搅乱 ， 盏 
则 , 如 果 中 断 处 理 程序 在 两 个 赋值 之 间 中 断 了 系统 调用 服务 例 程 , 处 理 程 序 就 会 看 
到 一 个 损坏 的 链表 。 因 此 ， 就 需要 一 个 写 内 存 屏 障 原 语 : 


new->next = list element ->meXt ， 
wmb(); 
list_ element->next = new,; 


在 目 旋 锁 、 信 号 量 及 中 断 禁 止 之 间 选 择 


遗憾 的 是 ， 对 大 多 数 内 核 数 据 结构 的 访问 模式 非常 复杂 ， 远 不 像 上 例 所 示 的 那样 简单 ， 
”于 是 ,人 迫使 内 核 开 发 者 使 用 信号 量 、 自 旋 锁 、 中 断 禁 止 和 软 中 断 禁 止 。 一 般 来 说 , 同步 
原 语 的 选取 取决 于 访问 数据 结构 的 内 核 控制 路 径 的 种 类 ， 如 表 5-8 所 示 。 记 住 ， 只 要 内 
核 控 制 路 径 获 得 自 旋 锁 (还 有 读 / 写 锁 、 闫 序 锁 或 RCU“ 读 锁 ”)， 就 禁用 本 地 中 上 断 或 本 
地 软 中 断 ， 自 动 禁用 内 核 抢 占 。 


表 5-8: 内 核 控制 路 径 访问 的 数据 结构 所 需要 的 保护 


访问 数据 结构 的 内 核 控制 路 径 单 处 理 器 保护 多 处 理 器 进一步 保护 
异常 信号 量 无 

中 断 本 地 中 断 禁 止 自 旋 锁 

可 延迟 函数 无 无 或 自 旋 锁 〈 参 看 表 5-9) 


异常 与 中 断 本 地 中 断 禁 止 自 旋 销 
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表 5-8， 内 核 控制 路 径 访问 的 数据 结构 所 需要 的 保护 ( 续 ) 





访问 数据 结构 的 内 核 控制 路 径 单 处 理 器 保护 多 处 理 器 进一步 保护 
异常 与 可 延迟 函数 本 地 软 中 断 禁止 自 旋 锁 

中 断 与 可 延迟 函数 本 地 中 断 禁 止 自 旋 锁 

异常 、 中 断 与 可 延迟 函数 本 地 中 断 禁 止 自 旋 锁 

保护 异常 所 访问 的 数据 结构 


当 一 个 数据 结构 仅 由 异常 处 理 程序 访问 时 , 竞争 条 件 通 常 是 易于 理解 也 易于 避免 的 。 最 
常见 的 产生 同步 问题 的 异常 就 是 系统 调用 服务 例 程 (参看 第 十 章 的 “系统 调用 处 理 程序 
及 服务 例 程 ”一 节 )， 在 这 种 情况 下 ，CPU 运行 在 内 核 态 而 为 用 户 态 程序 提供 服务 。 因 
此 ， 仅 由 异常 访问 的 数据 结构 通常 表示 一 种 资源 ， 可 以 分 配给 一 个 或 多 个 进程 。 


竞争 条 件 可 以 通过 信号 量 避 免 ， 因 为 信号 量 原 语 允 许 进 程 睡 眠 到 资源 变 为 可 用 。 注 意 ， 
信号 量 工作 方式 在 单 处 理 器 系统 和 多 处 理 帮 系 统 上 完全 相同 。 


内 核 抢占 不 会 引起 太 大 的 问题 。 如 有 果 一 个 拥有 信号 量 的 进程 是 可 以 被 抢占 的 , 运行 在 同 
一 个 CPU 上 的 新 进程 就 可 能 试图 获得 这 个 信号 量 。 在 这 种 情况 下 , 让 新 进程 处 于 睡眠 状 
态 , 而 且 原 来 拥有 信和 号 量 的 进程 最 终 会 释放 信号 量 。 只 有 在 访问 每 CPU 变量 的 情况 下 ， 
必须 显 式 地 禁用 内 核 抢 占 ， 就 像 在 本 章 前 面 “ 每 CPU 变量 ”一 市 中 所 描述 的 那样 。 


保护 中 断 所 访问 的 数据 结构 


假定 一 个 数据 结构 仅 被 中 断 处 理 程 序 的 “上 半 部 分 ” 访问 。 我 们 在 第 四 章 的 “中 断 处 理 ” 
一 节 了 解 到 每 个 中 断 处 理 程序 都 相对 自己 串 行 地 执行 一 一 也 就 是 说 ， 中 断 处 理 程序 本 
身 不 能 同时 多 次 运行 。 因 此 ， 访 问 数据 结构 就 无 需 任何 同步 原 语 。 


但 是 , 如 果 多 个 中 断 处 理 程序 访问 一 个 数据 结构 ,情况 就 有 所 不 同 了 。 一 个 处 理 程序 可 
以 中 断 另 一 个 处 理 程序 , 不 同 的 中 断 处 理 程序 可 以 在 多 处 理 器 系统 上 同时 运行 。 没有 同 
步 ， 共 享 的 数据 结构 就 很 容易 被 破坏 。 


在 单 处 理 器 系统 上 ,必须 通过 在 中 断 处 理 程序 的 所 有 临界 区 上 禁止 中 断 来 避免 竞争 条 件 。 
只 能 用 这 种 方式 进行 同步 , 因为 其 他 的 同步 原 语 都 不 能 完成 这 件 事 。 信和 号 量 能 够 阻塞 进 
程 ， 因 此 ,不 能 用 在 中 断 处 理 程序 上 。 另 一 个 方面 ， 自 旋 锁 可 能 使 系统 冻结 : 如 果 访 问 
数据 结构 的 处 理 程序 被 中 断 ， 它 就 不 能 释放 锁 ， 因此 , 新 的 中 断 处 理 程序 在 自 旋 锁 的 紧 
循环 上 保持 等 待 。 


同样 , 多 处 理 器 系统 的 要 求 其 至 更 加 苛刻 。 不 能 简单 地 通过 禁止 本 地 中 断 来 避免 竞争 条 
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不 过 ,内 核 有 时 并 不 用 锁 或 禁止 中 断 就 可 以 执行 这 种 插入 操作 ,我 们 把 这 种 操作 的 
工作 机 制作 为 例子 来 进行 说 明 。 考 虑 一 种 情况 , 系统 调用 服务 例 程 (参见 第 十 章 的 
“系统 调用 处 理 程序 及 服务 例 程 ) 把 新 元 素 插入 到 一 个 简单 链表 中 ， 而 中 断 处 理 程 
序 或 可 延迟 函数 异步 地 查看 该 链表 。 


在 C 语 言 中 ， 插 入 是 通过 下 列 指针 赋值 实现 的 ， 


new->next = list_ element->next, 
list _ element->next = new; 


在 汇编 语言 中 ,插入 简化 为 两 个 连续 的 原子 指令 。 第 一 条 指令 建立 new 元 素 的 next 
指针 , 但 不 修改 链表 。 因此, 如 果 中 断 处 理 程序 在 第 一 条 指令 和 第 二 条 指令 执行 的 
中 间 查 看 这 个 链表 , 看 到 的 就 是 没有 新 元 素 的 链表 。 如果 该 处 理 程序 在 第 二 条 指令 
执行 后 查看 链表 , 就 会 看 到 有 新 元 素 的 链表 。 关 键 是 , 在 任 一 种 情况 下 , 链表 都 是 
一 致 的 且 处 于 未 损坏 状态 。 然 而 , 只 有 在 中 断 处 理 程序 不 修改 链表 的 情况 下 才能 确 
保 这 种 完整 性 。 如 果 修改 了 链表 , 那么 在 new 元 素 内 刚刚 设置 的 next 指针 就 可 能 
变 为 无 效 的 ， 

然而 ， 开 发 者 必须 确保 两 个 赋值 操作 的 顺序 不 被 编译 器 或 CPU 控制 单元 搅乱 ， 否 
则 , 如 果 中 断 处 理 程序 在 两 个 赋值 之 间 中 上 断 了 系统 调用 服务 例 程 ,处理 程序 就 会 看 
到 一 个 损坏 的 链表 。 因 此 ， 就 需要 一 个 写 内 存 屏障 原 语 : 


new->next = list element->next; 
wmb(): 
list _ element->next = new:; 


在 自 旋 锁 、 信 号 量 及 中 断 禁 止 之 间 选 择 


遗憾 的 是 ， 对 大 多 数 内 核 数据 结构 的 访问 模式 非常 复杂 ， 远 不 像 上 例 所 示 的 那样 简单 ， 
于是， 迫使 内 核 开 发 者 使 用 信号 量 、 自 旋 锁 、 中 断 禁止 和 软 中 断 禁止 。 一 般 来 说 ， 同 步 
原 语 的 选取 取决 于 访问 数据 结构 的 内 核 控制 路 径 的 种 类 ， 如 表 5-8 所 示 。 记 住 ， 只 要 内 
核 控 制 路 径 获 得 自 旋 锁 《还 有 读 / 写 锁 、 顺 序 锁 或 RCU“ 读 锁 ) ， 就 禁用 本 地 中 断 或 本 
地 软 中 断 ， 目 动 禁 用 内 核 抢占 。 


表 5-8; 内 核 控制 路 径 访 问 的 数据 结构 所 需要 的 保护 


访问 数据 结构 的 内 核 控制 路 径 单 处 理 器 保护 多 处 理 器 进一步 保护 
异常 信号 量 无 

中 断 本 地 中 断 禁 目 自 旋 销 

可 延迟 函数 无 无 或 自 旋 锁 〈 参 看 表 5-9) 


异常 与 中 断 本 地 中 断 禁 止 自 旋 锁 
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表 5-8: 内 核 控制 路 径 访 问 的 数据 结构 所 需要 的 保护 ( 续 ) 





访问 数据 结构 的 内 核 控制 路 径 单 处 理 器 保护 多 处 理 器 进一步 保护 
异常 与 可 延迟 函数 本 地 软 中 断 禁止 自 旋 锁 

中 断 与 可 延迟 函数 本 地 中 断 禁止 自 旋 锁 

异常 、 中 断 与 可 延迟 函数 本 地 中 断 禁止 自 旋 锁 

保护 异常 所 访问 的 数据 结构 


当 一 个 数据 结构 仅 由 异常 处 理 程序 访问 时 , 竞争 条 件 通常 是 易于 理解 也 易于 避免 的 。 最 
常见 的 产生 同步 问题 的 异常 就 是 系统 调用 服务 例 程 (参看 第 十 章 的 “系统 调用 处 理 程序 
及 服务 例 程 ”一 节 )， 在 这 种 情况 下 ，CPU 运行 在 内 核 态 而 为 用 户 态 程序 提供 服务 。 
此 ， 仅 由 异常 访问 的 数据 结构 通常 表示 一 种 资源 ， 可 以 分 配给 一 个 或 多 个 进程 。 


竞争 条 件 可 以 通过 信号 量 避 免 ， 因 为 信号 量 原 语 允 许 进程 睡眠 到 资源 变 为 可 用 。 注 意 ， 
言 号 量 工作 方式 在 单 处 理 器 系统 和 多 处 理 器 系统 上 完全 相同 。 


内 核 抢占 不 会 引起 太 大 的 问题 。 如 果 一 个 拥有 信和 号 量 的 进程 是 可 以 被 抢占 的 , 运行 在 同 
一 个 CPU 上 的 新 进程 就 可 能 试图 获得 这 个 信号 量 。 在 这 种 情况 下 , 让 新 进程 处 于 睡眠 状 
态 , 而 且 原 来 拥有 信号 量 的 进程 最 终 会 释放 信和 号 量 。 只 有 在 访问 每 CPU 变量 的 情况 下 ， 
必须 显 式 地 禁用 内 核 抢占 ， 就 像 在 本 章 前 面 “ 每 CPU 变量 ”一 节 中 所 描述 的 那样 。 


保护 中 断 所 访问 的 数据 结构 


假定 一 个 数据 结构 仅 被 中 断 处 理 程 序 的 “上 半 部 分 ” 访问。 我们 在 第 四 章 的 “中 断 处 理 - 
一 节 了 解 到 每 个 中 断 处 理 程序 都 相对 自己 串 行 地 执行 一 一 也 就 是 说 ， 中 断 处 理 程序 本 
身 不 能 同时 多 次 和 运行。 因此， 访问 数据 结构 就 无 需 任何 同步 原 语 。 


但 是 ,如 果 多 个 中 断 处 理 程序 访问 一 个 数据 结构 , 情况 就 有 所 不 同 了 。 一 个 处 理 程序 可 
以 中 断 另 一 个 处 理 程序 , 不 同 的 中 断 处 理 程 序 可 以 在 多 处 理 器 系统 上 同时 运行 。 没有 同 
步 ， 共 享 的 数据 结构 就 很 容易 被 破坏 。 


在 单 处 理 器 系统 上 ,必须 通过 在 中 断 处 理 程序 的 所 有 临界 区 上 禁止 中 断 来 避免 竞争 条 件 。 
只 能 用 这 种 方式 进行 同步 , 因为 其 他 的 同步 原 语 都 不 能 完成 这 件 事 。 信 号 量 能 够 阻塞 进 
程 ， 因 此 ,不 能 用 在 中 断 处 理 程序 上 。 另 一 个 方面 ， 自 旋 锁 可 能 使 系统 冻结 : 如 果 访 问 
数据 结构 的 处 理 程序 被 中 断 ， 它 就 不 能 释放 锁 ， 因 此 , 新 的 中 断 处 理 程序 在 自 旋 锁 的 紧 
循环 上 保持 等 待 。 


同样 ,多 处 理 器 系统 的 要 求 甚至 更 加 苛刻 。 不 能 向 单 地 通过 禁止 本 地 中 断 来 避免 竞争 条 
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件 。 事实 上 , 即使 在 一 个 CPU 上 禁止 了 中 断 ,中断 处 理 程序 还 可 以 在 其 他 CPU 上 执行 。 
避免 竞争 条 件 最 简单 的 方法 是 禁止 本 地 中 断 ( 以 便 运 行 在 同一 个 CPU 上 的 其 他 中 断 处 理 
程序 不 会 造成 干扰 ), 并 获取 保护 数据 结构 的 自 旋 锁 或 读 / 写 自 旋 锁 。 注意 , 这 些 附加 的 
自 旋 锁 不 能 冻结 系统 , 因为 即使 中 断 处 理 程序 发 现 锁 被 关闭 , 在 另 一 个 CPU 上 拥有 锁 的 
中 断 处 理 程序 最 终 也 会 释放 这 个 锁 。 


Linux 内 核 使 用 了 几 个 宏 ,把 本 地 中 断 激活 /禁止 与 自 旋 锁 结合 起 来 。 表 5-9 描 述 了 其 中 
的 所 有 宏 。 在 单 处 理 器 系统 上 ， 这 些 宏 仅 激活 或 禁止 本 地 中 断 和 内 核 抢 占 。 


表 5-9: 与 中 断 相 关 的 自 旋 锁 宏 
宏 


spin_lock_irg(1) 

spin_ unlock_irg(1) 
spin_ lock_bht{1) 
spin_unlock_bh{1) 
spin_lock_irgqsave(l,f) 


spin_unlock_irqaqrestore(l]l,f) 


read lock_irgq(1]) 
read_unlock_iraq(1) 
read _ lock_bh(1) 

read_ unlock_bh (1]) 
write_ Jock irgt(1) 
write _ unlock_irq(1) 

write lJock_bh(]) 

write unlock_bh(1) 
read_lock_irqsave!{],f) 
read_unlock_irgarestore(l,f) 
write_lock_irqsave(1,f) 
write_unlock_iraqrestore(l,f) 
read segqbegin_irgsavel(l1,f) 
read_ seqretry_irqrestorel(l,v,t) 
write_seqlock_irqsave(1,f) 
write_ sequnlock_iraqrestorel(l,f) 
write_seqlock_irqg(1) 

write sequnlock_irqgt{1) 
write_seqlock_bnh(1) 

write sequnlock_bh(1) 


说 明 

local_ irg disable!();spin_lock!{(]1) 
spin_ unlock{(]);local _ irq enable{() 
local_bh_disable();spin_lock(1]) 
spin unlock(l1);local bh enable!() 
Jocal_irqg save{(f);spin lock!(]) 


spin unlock(1);local irg restore(f) 


local_irg disable();read_ lock(]) 

read unlock{({l1)};local_ irg enable!() 
local_bh disable();read lock(]1) 

read unlock(1);local bn enable (1) 
local_irqg disable() ;write._lock!(1) 
write unlock(]l1);local_irq enable() 
local_bh_ disable() ;write_lock!(1) 

write unlock(l1};local_ bh enable!() 
local_irg save(f);read_ lock!(]) 

read unlock (1) ;local irg restore(f) 
local_irg save{f);write lock(1) 

write unlock(l1);local_irqg _ restore!(f) 
local_irqg save(f);read seqbegin(1]) 
read seqretry(l,v);local_ irqg restore(f ) 
Jocal_irqg save(f);write_seqlock (1]) 
write_sequnlock(]1);local_irqg restore(f) 
Jocal_irq disable() ;write_seqlock (1]) 
write_sequnlock{(l1});local_ irg_ enable() 
local_bh_ disable() ;write_ seqlock!1) 
write sequnlock(1);1local bh _enable!) 
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保护 可 延迟 函数 所 访问 的 数据 结构 
只 被 可 延迟 函数 访问 的 数据 结构 需要 哪 种 保护 呢 ” 这 主要 取决 于 可 延 人 壕 函 数 的 种 类 ,在 
第 四 章 “ 软 中 断 及 tasklet” 一 节 ， 我 们 说 明了 软 中 断 和 ttasklet 本 质 上 有 不 同 的 并 发 度 。 


首先 , 在 单 处理 器 系统 上 不 存在 竞争 条 件 。 这 是 因为 可 延迟 函数 的 执行 总 是 在 一 个 CPU 
上 串 行进 行 一 一 也 就 是 说 ， 一 个 可 延迟 函数 不 会 被 另 一 个 可 延迟 国 数 中 断 。 因此 ， 根 
本 不 需要 同步 原 语 。 


相反 , 在 多 处 理 器 系统 上 , 竞争 条 件 的 确 存 在 ,因为 几 个 可 延迟 锁 数 可 以 并 发 运行 。 表 
5-10 列 出 了 所 有 可 能 的 情况 。 


表 5-10， 在 SMP 上 可 延迟 函数 访问 的 数据 结构 所 需 的 保护 


访问 数据 结构 的 可 延迟 务 数 保护 
软 中 源 自 旋 锁 
一 个 tasklet 无 
多 个 tasklet 自 旋 销 


由 软 中 断 访问 的 数据 结构 必须 受到 保护 , 通常 使 用 自 旋 锁 进 行 保 护 , 因为 同一 个 软 中 断 
可 以 在 两 个 或 多 个 CPU 上 并 发 运行 。 相 反 ， 仅 由 一 种 tasklet 访问 的 数据 结构 不 需要 保 
护 ， 因 为 同 种 tasklet 不 能 并 发 运行 。 但 是 ， 如 果 数 据 结构 被 儿 种 tasklet 访 问 ， 那 么 ， 就 
必须 对 数据 结构 进行 保护 。 


保护 由 异常 和 中 断 访问 的 数据 结构 


让 我 们 现在 考虑 一 下 由 异常 处 理 程序 (例如 系统 调用 服务 例 程 ) 和 中 断 处 理 程 序 访问 的 
数据 结构 。 


在 单 处 理 器 系统 上 , 竞争 条 件 的 防止 是 相当 简单 的 , 因为 中 断 处 理 程 序 不 是 可 重 入 的 且 
不 能 被 异常 中 断 。 只 要 内 核 以 本 地 中 断 禁 止 访问 数据 结构 , 内 核 在 访问 数据 结构 的 过 程 
中 就 不 会 被 中 断 。 不 过 ， 如 果 数 据 结构 正好 是 被 一 种 中 断 处 理 程序 访问 ， 那么， 中 断 处 
理 程序 不 用 禁止 本 地 中 断 就 可 以 自由 地 访问 数据 结构 。 


在 多 处 理 器 系统 上 , 我 们 必须 关注 异常 和 中 断 在 其 他 CPU 上 的 并 发 执行 。 本 地 中 断 禁 止 
还 必须 外 加 自 旋 锁 , 强制 并 发 的 内 核 控制 路 径 进行 等 待 , 直到 访问 数据 结构 的 处 理 程序 
完成 自己 的 工作 。 


有 时 ,用 信号 量 代替 自 旋 锁 可 能 更 好 。 因 为 中 断 处理 程 序 不 能 被 挂 起 ,它们 必须 用 紧 循 
环 和 aown_Eryloeck() 函 数 获得 信号 量 ， 对 这 些 中 断 处 理 程序 来 说 ， 信 和 号 量 起 的 作用 本 
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质 上 与 自 旋 锁 一 样 。 男 一 方面 ， 系统 调用 服务 例 程 可 以 在 信号 量 忙 时 挂 起 调用 进程 。 对 
大 部 分 系统 调用 而 言 ,这 是 所 期 望 的 行为 。 在 这 种 情况 下 , 信号 量 比 自 旋 锁 更 好 ， 因 为 
言 写 量 使 系统 具有 更 高 的 并 发 度 。 


保护 由 异常 和 可 延迟 函数 访问 的 数据 结构 

异常 和 可 延迟 函数 都 访问 的 数据 结构 与 异常 和 中 断 处 理 程序 访问 的 数据 结构 处 理 方式 类 
似 。 事实 上 , 可 延迟 函数 本 质 上 是 由 中 断 的 出 现 激活 的 , 而 可 延迟 函数 执行 时 不 可 能 产 
生 异 常 。 因 此 ， 把 本 地 中 断 禁 止 与 自 旋 锁 结 合 起 来 就 足够 了 。 


实际 上 ， 这 更 加 充分 : 异常 处 理 程序 可 以 通过 使 用 1ocal_bh_qdisable() 宏 简单 地 禁止 
可 延迟 函数 ， 而 不 禁止 本 地 中 断 (参看 第 四 章 的 “ 软 中 断 ” 一 市 )。 仅 禁止 可 延迟 函数 
比 禁 止 中 断 更 可 取 ， 因 为 中 断 还 可 以 继续 在 CPU 上 得 到 服务 。 在 每 个 CPU 上 可 延迟 国 
数 的 执行 都 被 捉 行 化 ， 因 此 ， 不 存在 苑 争 条 件 。 


同样 ,在 多 处 理 融 系统 上 ,要 用 自 旋 锁 确 保 任何 时 候 只 有 一 个 内 核 控 制 路 径 访 问 数据 结构 。 


保护 由 中 断 和 可 延迟 函数 访问 的 数据 结构 

这 种 情况 类 似 于 中 断 和 异常 处 理 程序 访问 的 数据 结构 。 当 可 延迟 函数 运行 时 可 能 产生 中 
断 , 但 是 ,可 延迟 函数 不 能 阻止 中 断 处 理 程序 。 因 此 ， 必 须 通过 在 可 延迟 函数 执行 期 间 
禁用 本 地 中 断 来 避免 竞争 条 件 。 不过, 中 断 处 理 程序 可 以 随意 访问 被 可 延迟 函数 访问 的 
数据 结构 而 不 用 关中 断 ， 前 提 是 没有 其 他 的 中 断 处 理 程序 访问 这 个 数据 结构 。 


在 多 处 理 丝 系统 上 ， 还 是 需要 自 旋 锁 禁 止 对 多 个 CPU 上 数据 结构 的 并 发 访问 。 


保护 由 异常 、 中 断 和 可 延迟 函数 访问 的 数据 结构 


类 似 于 前 面 的 情况 ,禁止 本 地 中 断 和 获取 自 旋 锁 几 乎 总 是 避免 竞争 条 件 所 必需 的 。 注 意 ， 
没有 必要 显 式 地 禁止 可 延迟 函数 , 因为 当中 断 处理 程 序 终止 执行 时 ,可 延迟 函数 才能 被 
实质 激活 ， 因 此 ， 禁 止 本 地 中 断 就 是 够 了 。 


避免 竞争 条 件 的 实例 
人 们 总 是 期 望 内 核 开发 者 确定 和 解决 由 内 核 控制 路 径 的 交错 执行 所 引起 的 同步 问题 。 但 
是 , 避免 竞争 条 件 是 一 项 艰巨 的 任务 , 因为 这 需要 对 内 核 的 各 个 成 分 如 何 相互 作用 有 一 


个 清楚 的 理解 。 为 了 直观 地 认识 内 核 内 部 到 底 是 什么 样子 , 需要 提 及 本 章 所 定义 同步 原 
语 的 几 种 典型 用 法 。 
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引用 计数 器 


引用 计数 器 广泛 地 用 在 内 核 中 以 避免 由 于 资源 的 并 发 分 配 和 释放 而 产生 的 竞争 条 件 。3 引 
用 计数 器 (reference counter) 只 不 过 是 一 个 atomic 上 计数器， 与 特定 的 资源 ， 如 内 存 
页 、 模 块 或 文件 相关 。 当 内 核 控制 路 径 开 始 使 用 资源 时 就 原子 地 减少 计数 器 的 值 ， 当 内 
核 控 制 路 径 使 用 完 资 源 时 就 原子 地 增加 计数 嚣 。 当 引用 计数 器 变 为 0 时 , 说明 该 资源 未 
被 使 用 ， 如 果 必 要 ， 就 释放 该 资源 。 


大 内 核 锁 


在 早期 的 Linux 内 核 版 本 中 ， 大 内 核 锁 (big kernel block, 也 叫 全 局 内 核 锁 或 BKL) 被 
广泛 使 用 。 在 2.0 版 本 中 ， 这 个 锁 是 相对 粗 粒度 的 自 旋 锁 ， 确 保 每 次 只 有 一 个 进程 能 运 
行 在 内 核 态 。2.2 和 2.4 内 核 具有 极 大 的 灵活 性 ， 不 再 依赖 一 个 单独 的 自 旋 锁 ,而 是 由 许 
多 不 同 的 自 旋 锁 保护 大 量 的 内 核 数据 结构 。 在 Linux 2.6 版 本 的 内 核 中 ， 用 大 内 核 锁 来 
保护 有 旧 的 代码 ( 绝 大 多 数 是 与 VFS 和 几 个 文件 系统 相关 的 国 数 ) 。 


从 内 核 版 本 2.6.11 开始 ， 用 一 个 叫做 kernel_sem 的 信号 量 来 实现 大 内 核 锁 (在 较 早 的 
2.6 版 本 中 ,大 内 核 锁 是 通过 自 旋 锁 来 实现 的 )。 但 是 , 大 内 核 锁 比 简单 的 信号 量 要 复杂 


一 些 。 


每 个 进程 描述 符 都 含有 lock_depth 字 段 ,这 个 字段 允许 同一 个 进程 几 次 获取 大 内 核 锁 。 
因此 ， 对 大 内 核 锁 两 次 连续 的 请 求 不 挂 起 处 理 器 (相对 于 普通 自 旋 锁 )。 如 果 进 程 未 获 
得 过 锁 ， 则 这 个 字段 的 值 为 -1， 否则 ， 这 个 字段 的 值 加 1， 表示 已 经 请 求 了 多 少 次 锁 。 
lock_depth 字 段 对 中 断 处 理 程序 、 异 常 处 理 程序 及 可 延迟 洋 数 获取 大 内 核 锁 都 是 至 关 
重要 的 。 如 果 设 有 这 个 字段 ， 那么， 在 当前 进程 已 经 拥有 大 内 核 锁 的 情况 下 , 任何 试图 
获得 这 个 锁 的 异步 函数 都 可 能 产生 死 锁 。 


lock_kernel () 和 unlock_kernel () 内核 函 数 用 来 获得 和 释放 大 内 核 锁 。 前 一 个 汲 数 等 
价 于 : 


depth = current~->lock depth + 1; 
if (depth == 0) 

down (kkernel_sem): 
current->lock_depth = depth, 


而 后 者 等 价 于 : 


if (--current->lock_depth < 0) 
upl&kkernel_sem); 


注意 ，'lock_kernel() 和 unlock_kernel () 国 数 的 1 语句 不 需要 原子 地 执行 ， 因 为 
lock_depth 不 是 全 局 变量 一 一 这 是 每 个 CPU 在 自己 当前 进程 描述 符 中 访问 的 一 个 字段 ,在 
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if 语句 内 的 本 地 中 断 也 不 会 引起 竞争 条 件 。 即 使 新 内 核 控制 路 径 调 用 了 lock_kernel ()， 
它 在 终止 前 也 必须 释放 大 内 核 锁 。 


足以 令 人 吃惊 的 是 ， 人 允许 一 个 持 有 大 内 核 锁 的 进程 调用 schedqule() ， 从 而 放弃 CPU 
不 过 , schedule() 国 数 检查 被 替换 进程 的 1ock_aqepth 字 段 , 如 果 它 的 值 是 0 或 者 正 数 ， 
就 目 动 释放 kernel_sem 信 号 量 (参见 第 七 章 “schedule(O) 国 数 ” 一 节 )。 因 此 ， 不 会 有 
显 式 调用 schedule () 的 进程 在 进程 切换 前 后 都 保持 大 内 核 锁 。 但 是 ， 当 schedule() 国 
数 再 次 选择 这 个 进程 来 执行 的 时 候 ， 将 为 该 进程 重新 获得 大 内 核 锁 。 


然而 ， 如 果 一 个 持 有 大 内 核 锁 的 进程 被 另 一 个 进程 抢占 ,情况 就 有 所 不 同 了 。 一 直到 内 
核 版 本 2.6.10 还 没有 出 现 这 种 情况 ,因为 获取 自 旋 锁 时 会 自动 禁用 内 核 抢 占 。 但 是 , 现 
在 大 内 核 锁 的 实现 是 基于 信号 量 的 ,而 且 不 会 由 于 获得 它 而 自动 禁用 内 核 抢 占 。 实 际 上 ， 
在 被 大 内 核 锁 保护 的 临界 区 内 人 允许 内 核 抢 占 是 改变 大 内 核 锁 实 现 的 主要 原因 。 其 次 , 这 
对 于 系统 的 响应 时 间 会 产生 有 益 的 影响 。 


当 一 个 持 有 大 内 核 锁 的 进程 被 抢占 时 ，schedqule () 一 定 不 能 释放 信号 量 ， 因 为 在 临界 
区 内 执行 代码 的 进程 没有 主动 触发 进程 切换 。 所 以 ,如果 释放 大 内 核 锁 , 那么 另外 一 个 
进程 就 可 能 获得 它 ， 并 破坏 由 被 抢占 的 进程 所 访问 的 数据 结构 。 


为 了 避免 被 抢占 的 进程 失去 大 内 核 锁 ,preempt_schedqule_irgq() 临 时 把 进程 的 1ock_qepth 
字段 设置 为 -1 (参见 第 四 章 “ 从 中 断 和 异常 返回 ) 。 观 察 这 个 字段 的 值 ，schequle() 假 定 
被 替换 的 进程 不 拥有 kernel_sem 信 号 量 ， 也 就 不 释放 它 。 结 果 ， 被 抢占 的 进程 就 一 直 拥 
有 kernel_sem 信 号 量 。 一 旦 这 个 进程 再 次 被 调度 程序 选中 ，pPreempt_schequle_irq() 图 
数 就 恢复 1ock_qepth 字 段 原来 的 值 ， 并 让 进程 在 被 大 内 核 锁 保护 的 临界 区 中 继续 执行 。 


内 存 描述 符 读 / 写 信号 量 

mm_struct 类 型 的 每 个 内 存 描 述 符 在 mmap_sem 字 段 中 都 包含 了 自己 的 信号 量 (参见 第 
九 章 的 “内 存 描述 符 ” 一 节 )。 由 于 几 个 轻 量 级 进程 之 间 可 以 共享 一 个 内 存 描述 符 ， 因 
此 ， 信 和 号 量 保护 这 个 描述 符 以 避免 可 能 产生 的 竞争 条 件 。 


例如 ,让 我 们 假设 内 核 必 须 为 某 个 进程 创建 或 扩展 一 个 内 存 区 。 为 了 做 到 这 一 点 ， 内 核 
调用 do_mmap () 图 数 分 配 一 个 新 的 vm_area_struct 数 据 结构 。 在 分 配 的 过 程 中 ， 如 果 
没有 可 用 的 空闲 内 存 , 而 共享 同一 内 存 描述 符 的 另外 一 个 进程 可 能 在 运行 , 那么 当前 进 
程 可 能 被 挂 起 。 如 果 没 有 信号 量 ， 那 么 需要 访问 内 存 描述 符 的 第 二 个 进程 的 任何 操作 
(例如 ， 由 于 写 时 复制 而 产生 的 缺 页 ) 都 可 能 会 导致 严重 的 数据 月 澳 。 


这 种 信号 量 是 作为 读 / 写 信号 量 来 实现 的 , 因为 一 些 内 核 函 数 , 如 缺 页 异常 处 理 程序 ( 参 
见 第 九 章 的 “ 缺 页 异常 处 理 程序 ”一 节 ) 只 需要 扫描 内 存 描述 符 。 
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slab 高 速 缓存 链表 的 信号 量 
slab 高 速 缓存 描 述 符 链表 (参见 第 八 章 的 “高 速 缓存 描述 符 " 一 节 ) 是 通过 cache_chain_sem 
信和 号 量 保护 的 ， 这 个 信号 量 允 许 互 斥 地 访问 和 修改 该 链表 。 


当 kmem_cache_create() 在 链表 中 增加 一 个 新 元 素 ， 而 kmem_cache_shrink() 和 
kmem_cache_reap() 顺 序 地 扫描 整个 链表 时 , 可 能 产生 竞争 条 件 。 然 而 , 在 处 理 中 断 时 ， 
这 些 函 数 从 不 被 调用 , 在 访问 链表 时 它们 也 从 不 阻塞 。 由 于 内 核 是 支持 抢占 的 ,因此 这 
种 信号 量 在 多 处 理 器 系统 和 单 处 理 器 系统 中 都 会 起 作用 。 


索引 节点 的 信号 量 


正如 我 们 将 在 第 十 二 章 的 “索引 节点 对 象 ” 一 节 中 看 到 的 ，Linux 把 磁盘 文件 的 信息 存 
放 在 一 种 叫做 索引 节点 (inode) 的 内 存 对 象 中 。 相 应 的 数据 结构 也 包括 有 自己 的 信号 
量 ， 存 放 在 i_sem 字段 中 。 


在 文件 系统 的 处 理 过 程 中 会 出 现 很 多 竞争 条 件 。 实际 上 , 磁盘 上 的 每 个 文件 都 是 所 有 用 
户 共 有 的 一 种 资源 ， 因 为 所 有 进程 都 《可 能 ) 会 存 取 文件 的 内 容 、 修 改 文件 名 或 文件 位 
置 、 删 除 或 复制 文件 等 等 。 例 如 ， 让 我 们 假设 一 个 进程 在 显示 某 个 目录 所 包含 的 文件 。 
由 于 每 个 磁盘 操作 都 可 能 会 阻塞 , 因此 即使 在 单 处 理 器 系统 中 , 当 第 一 个 进程 正在 执行 
显示 操作 的 过 程 中 ,其 他 进程 也 可 能 存 取 同一 目录 并 修改 它 的 内 容 。 或 者 , 两 个 不 同 的 
进程 可 能 同时 修改 同一 目录 。 所 有 这 些 竞争 条 件 都 可 以 通过 用 索引 节点 信号 量 保护 目录 
文件 来 避免 。 


只 要 一 个 程序 使 用 了 两 个 或 多 个 信号 量 , 就 存在 死 锁 的 可 能 , 因为 两 个 不 同 的 控制 路 径 
可 能 互相 死 等 着 释放 信号 量 。 一般 来 说 , Linux 在 信号 量 请 求 上 很 少 会 发 生死 锁 问题 , 因 
为 每 个 内 核 控 制 路 径 通 党 一 次 只 需要 获得 一 个 信号 量 。 然 而 , 在 有 些 情况 下 ， 内核 必 须 
获得 两 个 或 更 多 的 信号 量 锁 。 索 引 节 点 信号 量 倾 向 于 这 种 情况 ， 例 如 ， 在 rename() 系 
统 调用 的 服务 例 程 中 就 会 发 生 这 种 情况 ,在 这 种 情况 下 ,操作 涉及 两 个 不 同 的 索引 节点 ， 
因此 ， 必 须 采 用 两 个 信号 量 。 为 了 避免 这 样 的 死 锁 ， 信 号 量 的 请 求 按 预先 确定 的 地 址 顺 
序 进 行 。 





很 多 计算 机 化 的 活动 都 是 由 定时 测量 (timing measurement) 来 驱动 的 ， 这 常常 对 用 户 
是 不 可 见 的 。 例 如 ， 当 你 停止 使 用 计算 机 的 控制 台 以 后 ， 屏 幕 会 自动 关闭 ， 这 得 归 因 于 
定时 器 , 它 允 许 内 核 跟踪 你 按键 或 移动 鼠标 后 到 现在 过 了 多 少时 间 。 如 果 你 收 到 了 一 个 
来 自 系 统 的 警告 信息 , 希望 你 删除 一 组 不 用 的 文件 , 这 就 是 由 于 有 一 个 程序 能 识别 长 时 
则 未 被 访问 的 所 有 用 户 文 件 。 为 了 进行 这 些 操 作 , 程序 必须 能 从 每 个 文件 中 检索 到 文件 
的 最 后 访问 时 间 ， 即 时 间 戳 (imestamp)， 因 此 ， 这 样 的 时 间 标 记 必 须 由 内 核 目 动 地 设 
置 。 更 重要 的 是 , 定时 机 制 连同 一 些 更 可 见 的 内 核 话 动 (如 检查 超时 ) 来 驱使 进程 切换 。 


Linux 内 核 必需 完成 两 种 主要 的 定时 和 测量 ， 我 们 可 以 对 此 加 以 区 别 ; 


。 保存 当前 的 时 间 和 日 期 ， 以 便 能 通过 time()、ftime() 和 gettimecoftdaay () 系 统 调 
用 把 它们 返回 给 用 户 程序 ( 见 本 章 后 面 的 “time() 和 gettimeofday() 系 统 调用 ”一 
节 )， 也 可 以 由 内 核 本 身 把 当前 时 间作 为 文件 和 网 络 包 的 时 间 惟 。 

。 维持 定时 器 ,这 种 机 制 能 够 告诉 内 核 (参见 后 面 的 “ 软 定时 器 和 延迟 函数 ”一 证 ) 
或 用 户 程序 (分别 参见 后 面 的 “setitimer(0) 和 alarm() 系 统 调用 ”一 节 和 “与 POSIX 
定时 器 相关 的 系统 调用 ”一 市 ) 某 一 时 间 间 隔 已 经 过 去 了 。 


定时 测量 是 由 基于 固定 频率 振 萄 器 和 计数 器 的 几 个 硬件 电路 完成 的 .本 章 由 四 个 不 同 的 
部 分 组 成 。 前 两 市 描述 建立 定时 机 制 的 硬件 设备 ,并 给 出 Linux 计时 体系 结构 的 总 体 概 
貌 ; 接 下 来 描述 内 核 中 与 时 间 相 关 的 主要 任务 : 实现 CPU 分 时 、 更 新 系统 时 间 和 和 资源 使 
用 统计 数 及 维护 软 定时 器 。 最 后 一 节 讨 论 与 定时 测量 相关 的 系统 调用 及 相应 的 服务 例 程 。 
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时 钟 和 定时 器 电路 

在 80x86 体 系 结构 上 , 内 核 必须 显 式 地 与 几 种 时 钟 和 定时 器 电路 打交道 。 时 钟 电路 同时 
用 于 跟踪 当前 时 间 和 产生 精确 的 时 间 度量 。 定 时 器 电路 由 内 核 编程 ,所 以 它们 以 固定 的 、 
预先 定义 的 频率 发 出 中 断 。 这 样 的 周期 性 中 断 对 于 实现 内 核 和 用 户 程序 使 用 的 软 定时 器 
都 是 至 关 重 要 的 。 我 们 现在 将 简要 描述 TBM 兼容 PC 上 的 时 钟 和 硬件 电路 


实时 时 钟 (RTC) 
所 有 的 PC 都 包含 一 个 叫 实时 时 钟 (Renl Time Clock RTC) 的 时 钟 ， 它 是 独立 于 CPU 
和 所 有 其 他 芯片 的 。 


即使 当 PC 被 切断 电源 ，RTC 还 继续 工作 ， 因 为 它 靠 一 个 小 电池 或 蔷 电 字 供 电 。CMOS 
RAM 和 RTC 被 集成 在 一 个 芯片 《Motorola 146818 或 其 他 等 价 的 芯片 ) 上 。 


RTC 能 在 IRQ8 上 发 出 周期 性 的 中 断 , 频率 在 2 一 8192 Hz 之 间 。 也 可 以 对 RTC 进行 编 
程 以 使 当 RTC 到 达 某 个 特定 的 值 时 激活 IRQ8 线 ， 也 就 是 作为 一 个 闹钟 来 工作 。 


Linux 只 用 RTC 来 获取 时 间 和 上 日期， 不 过 ， 通 过 对 /aewrrc 设备 文件 进行 操作 ， 也 允许 
进程 对 RTC 编程 《参见 第 十 三 章 ) 。 内 核 通过 0x70 和 0x71 VO 端口 访问 RTC。 系 统管 
理 员 通过 执行 Unix 系统 时 钟 程序 (直接 作用 于 这 两 个 IO 端口 ) 可 以 设置 时 钟 。 


时 间 戳 计数 如 (TSC) 

所 有 的 80x86 微 处 理 器 都 包含 一 条 CLK 输入 引线 ， 它 接收 外 部 振荡 器 的 时 钟 信 号 。 从 
Pentium 开始 ，80x86 微 处 理 器 就 都 包含 一 个 计数 器 ， 它 在 每 个 时 钟 信号 到 来 时 加 1。 读 
计数 器 是 利用 64 位 的 时 间 恰 计数 器 (Time Stamp Counter TSC) 寄存 器 来 实现 的 ， 可 以 
通过 汇编 语言 指令 rdtsc 读 这 个 寄存 器 。 当 使 用 这 个 寄存 器 时 ， 内 核 必 须 考虑 到 时 钟 信 
号 的 频率 : 例如 ， 如 果 时 钟 节拍 的 频率 是 1 GHz, 那么 , 时 间 蕉 计数 器 每 纳 秒 增加 一 次 。 


与 可 编程 间隔 定时 器 传递 来 的 时 间 测 量 相 比 ，Linux 利用 这 个 寄存 器 可 获得 更 精确 的 时 
则 测量 。 为 了 做 到 这 点 ,Linux 在 初始 化 系统 的 了 时候 必 须 确定 时 钟 信号 的 频率 。 事实 上 ， 
因为 编译 内 核 时 并 不 声明 这 个 频率 ,所 以 同一 内 核 映 像 可 以 运行 在 产生 任何 时 钟 频 率 的 
CPU. i, 


算出 CPU 实际 频率 的 任务 是 在 系统 初始 化 期 间 完 成 的 。calibrate_tsc() 国 数 通过 计 





算 一 个 大 约 在 Sms 的 时 间 间 隔 内 所 产生 的 时 钟 信 号 的 个 数 来 算出 CPU 实际 频率 。 通过 适 
当地 设置 可 编程 间隔 定时 器 的 一 个 通道 来 产生 这 个 时 间 常 量 (参见 下 一 节 ) ( 注 1)。 


可 编程 间隔 定时 器 (PIT ) 

除了 实时 时 钟 和 时 间 蕉 计数 器 ，IBM 兼容 PC 还 包含 了 第 三 种 类 型 的 时 间 测 量 设 备 ， 叫 
做 可 编程 间隔 定时 器 (Programmable Interval Timer PIT)。PIT 的 作用 类 似 于 微波 炉 
的 闹钟 ， 即 让 用 户 意识 到 就 调 的 时 间 间 隔 已 经 过 了 。 所 不 同 的 是 , 这 个 设备 不 是 通过 振 
铃 ， 而 是 发 出 一 个 特殊 的 中 断 ， 叫 做 时 钟 中 断 (timer interrupt) 来 通知 内 核 又 一 个 时 
间 间 隔 过 去 了 ( 广 2)。 与 阅 钟 的 另 一 个 区 别 是 ，PIT 永远 以 内 核 确定 的 固定 频率 不 停 地 
发 出 中 断 。 每 个 IBM 兼容 PC 都 至 少 包 含 一 个 PIT，PIT 通常 是 使 用 0x40 一 0x43 IO 
端口 的 一 个 8254 CMOS 芯片 。 


在 下 一 节 中 我 们 将 看 到 ，Linux 给 PC 的 第 一 个 PIT 进行 编程 ， 使 它 以 《大约 ) 1000 Hz 
的 频率 向 IRQ0 发 出 时 钟 中 断 ， 即 每 Ims 产生 一 次 时 钟 中 断 。 这 个 时 间 间 隔 叫 做 一 个 六 
拍 (tick)， 它 的 长 度 以 纳 秒 为 单位 存放 在 tick_nsec 变量 中 。 在 PC 上 ，tick_nsec 被 
初始 化 为 999848ns (产生 的 时 钟 信号 频率 大 约 为 1000.15 Hz), 但 是 如 果 计 算 机 被 外 部 
时 钟 同步 的 话 , 它 的 值 可 能 被 内 核 自动 调整 (参见 后 面 的 “adjtimex() 系 统 调用 ”一 市 )。 
节拍 为 系统 中 的 所 有 活动 打 拍子 , 从 某 种 意义 上 说 , 它们 像 音 乐 家 排练 节目 时 节拍 器 发 
出 的 节拍 声 。 

一 般 而 言 ， 短 的 节拍 产生 较 高 分 辨 度 的 定时 器 ， 当 这 种 定时 器 执行 同步 IO 多 路 复 用 
(Pol1() 和 selecc() 系 统 调 用 ) 时 ， 有 助 于 多 媒体 的 平 请 播放 和 较 快 的 响应 时 间 。 不 


过 , 这 是 一 种 折 中 : 短 的 节拍 需要 CPU 在 内 核 态 花费 较 多 的 时 间 , 也 就 是 在 用 户 态 花费 
较 少 的 时 间 。 因 而 ， 用 户 程序 运行 得 稍 慢 一 些 ，。 


时 钟 中 断 的 频率 取决 于 硬件 体系 结构 。 较 慢 的 机 器 , 其 节拍 大 约 为 10ms (每 秒 产生 100 
次 时 钟 中 断 ) ， 而 较 快 的 机 器 的 节拍 为 大 约 1ms (每 种 产生 1000 或 1024 次 时 钟 中 断 ) 。 
在 Linux 的 代码 中 ， 有 几 个 安 产生 决定 时 钟 中 断 频 率 的 常量 ， 对 此 讨论 如 下 ， 


*。 HZ 产生 每 秒 时 钟 中 断 的 近似 个 数 ， 也 就 是 时 钟 中 断 的 频率 。 在 IBM PC 上 ， 这 个 
值 设置 为 1000。 


CG 


注 1: 为 了 避免 在 些 数 除法 中 天 失 有 意义 的 位 数 , calibrate_tscl() 的 返回 值 为 时 钟 节拍 率 以 
2 (以 Hs 为 单位 )。 


注 2: 也 用 PIT 来 驱动 连接 到 计算 机 内 部 扬声器 的 音频 放大 器 。 
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。 CLOCK_TICK_RATE 产 生 的 值 为 1 193 182, 这 个 值 是 8254 芯片 的 内 部 振荡 器 频率 。 


s LaTCH 产 生 CLOCK_TICK_RATE 和 Hz 的 比值 再 四 舍 五 人 后 的 整数 值 。 这 个 值 用 
来 对 PIT 编程 。 


PIT 由 setup_pit_timer{) 进 行 如 下 的 初始 化 : 


spin_lock irgqsave{(&i8253_lock, flags):; 
Cutb p(Ox3d, Oxd3); 

udelay (10}: 

Outb pl{LATCH & Oxff, Oxdo0); 

udelay (10):; 

OuULD(ILATCOCH >=» 8, Oxd40); 

spin_unlock irgreastore(&i8254 lock, flags}); 


outb() CC 函数 等 价 于 outb 汇 编 语 言 指令 ; 它 把 第 一 个 操作 数据 风 到 由 第 二 个 操作 数 指 
定 的 0 端口 。outb_p() 函 数 类 似 于 outb(), 不 过 , 它 会 通过 一 个 空 操作 而 产生 一 个 暂 
停 , 以 避免 硬件 难以 分 辨 。udelay {) 宏 函数 引入 了 一 个 更 短 的 延迟 (参见 后 面 的 “延迟 
函数 ”一 节 )。 第 一 条 outb pl() 语 名 让 PIT 以 新 的 频率 产生 中 断 。 接 下 来 的 两 条 outb_ 
p() 和 outb() 语 句 为 设备 提供 新 的 中 断 频 率 。 把 16 位 LATCH 常量 作为 两 个 连续 的 字 
市 发 送 到 设备 的 8 位 LO 端口 0x40。 结 果 ，PIT 将 以 (大约 ) 1000Hz 的 频率 产生 时 钟 
中 断 ， 也 就 是 说 ,每 1 ms 产生 一 次 时 钟 中 断 。 


CPU 本 地 定时 恬 


在 最 近 80x86 微 处 理 器 的 本 地 APIC 中 (参看 第 四 章 “ 中 断 和 异常 ”一 节 ) 还 提供 了 另 
一 种 定时 而 量 设 备 : CPU 本 地 定时 路。 


CPU 本 地 定时 器 是 一 种 能 够 产生 单 步 中 断 或 周期 性 中 断 的 设备 , 它 类 似 于 方才 描述 的 可 

编程 间隔 定时 器 ， 不 过 ， 还 是 有 几 点 区 别 ; 

» APIC 计数 器 是 32 位 ,而 PIC 计数 器 是 16 位 : 因此 ， 可 以 对 本 地 定时 器 编程 来 产 
生 很 低频 率 的 中 断 (计数 器 存放 中 断 发 生前 必须 经 过 的 节拍 数 ) 。 

。， ”本 地 APIC 定时 器 把 中 断 只 发 进 给 自己 的 处 理 器 ,而 PIT 产生 一 个 全 局 性 中 断 ， 系 
统 中 的 任 一 CPU 都 可 以 对 其 处 理 。 

。 APIC 定时 器 是 基于 总 线 时 钟 信息 的 (或 在 更 老式 的 机 器 上 是 基于 APIC 时 钟 信和 号 
的 )。 每 隔 1, 2, 4, 8, 16, 32, 64 或 128 总 线 时 钟 信 号 到 来 时 对 读 定 时 器 进行 递减 可 以 
实现 对 其 编程 的 目的 。 相 反 ，PIT 有 其 自己 的 内 部 时 钟 振 荡 器 ， 可 以 更 灵活 地 编程 。 
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高 精度 事件 定时 器 (HPET) 


高 精度 事件 定时 器 是 由 Intel 和 Microsoft 联合 开发 的 一 种 新 型 定时 器 芯片 。 尽 管 这 种 定 
时 器 在 终端 用 户 机 器 上 还 并 不 普遍 ， 但 Linux 2.6 已 经 能 够 支持 它们 ， 所 以 我 们 将 花 一 
些 篇 幅 来 描述 它们 的 特性 。 


HPET 提 供 了 许多 可 以 被 内 核 使 用 的 硬 定时 器 。 这 种 新 定时 器 芯片 主要 包含 8 个 32 位 或 
64 位 的 独立 计数 器。 每 个 计数 器 由 它 自己 的 时 钟 信号 所 驱动 , 该 时 钟 信号 的 频率 必须 至 
少 为 10MHz。 因 此 ， 计数器 最 少 可 以 每 100ns 增长 一 次 。 任 何 计数 器 最 多 可 以 与 32 个 
定时 器 相关 联 , 每 个 定时 器 由 一 个 比较 器 和 一 个 匹配 寄存 器 组 成 。 比较 器 是 一 组 用 于 检 
测 计数 器 中 的 值 与 匹配 寄存 器 中 的 值 是 否 匹 配 的 电路 ,如 果 找 到 一 组 匹配 值 就 产生 一 个 
硬件 中 断 。 一 些 定 时 器 可 以 被 激活 来 产生 周期 性 中 断 。 


可 以 通过 映射 到 内 存 空 间 的 寄存 器 来 对 HPET 攻 片 编程 (与 IO APIC 非 常 相似 )。BIOS 
在 自 举 阶段 建立 起 映射 并 向 操作 系统 内 核 报告 它 的 起 始 内 存 地 址 。HPET 寄 存 器 允许 内 
核对 计数 器 和 匹配 寄存 器 的 值 进 行 读 和 写 , 允许 内 核对 单 步 中 断 进行 编程 , 还 允许 内 核 
在 支持 HPET 的 定时 器 上 激活 或 禁止 周期 性 中 断 。 


下 一 代 主 板 将 很 可 能 同时 包含 HPET 和 8254 PIT。 但 是 在 不 久 的 将 来 ,期望 HPET 将 完 
全 取代 PIT。 


ACPI 电源 管理 定时 器 


ACPI 电源 管理 定时 器 (或 称 作 4CPL PMT) 是 另 一 种 时 钟 设备 ， 包 含 在 几乎 所 有 基于 
ACPI 的 主板 上 。 它 的 时 钟 信号 拥有 大 约 为 3.58 MHz 的 固定 频率 。 该 设备 实际 上 是 一 个 
简单 的 计数 器 ， 它 在 每 个 时 钟 节拍 到 来 时 增加 一 次 。 为 了 读 取 计数 器 的 当前 值 内核 需 
要 访问 某 个 IO 端口 ， 该 IO 端口 的 地 址 由 BIOS 在 初始 化 阶段 确定 (参见 附录 一 )。 


如 果 操 作 系 统 或 者 BIOS 可 以 通过 动态 降低 CPU 的 工作 频率 或 者 工作 电压 来 节省 电池 的 
电能 ,那么 ACPI 电源 管理 定时 器 就 比 TSC 更 优越 。 当 发 生 这 种 情况 时 ，TSC 的 频率 发 
生 改 变 (这 样 将 造成 时 间 偏 差 和 其 他 一 些 不 良 的 效果 ), 而 ACPI PMT 的 频率 不 会 改变 。 
而 另 一 方面 ，TSC 计数 器 的 高 频率 非常 便于 测量 特别 小 的 时 间 间 隔 。 


不 过 ， 如 果 系 统 中 存在 HPET 设备 ,那么 比 起 其 他 电路 而 言 它 总 是 成 为 首选 ， 因 为 它 更 
为 复杂 的 结构 使 得 功能 更 强 。 在 本 章 稍 后 的 表 6-2 中 举例 说 明了 Linux 如 何 使 用 可 利用 
的 定时 电路 。 


现在 我 们 明白 了 什么 是 硬 定 时 器 , 接 下 来 我 们 将 讨论 Linux 内 核 如 何 利用 它们 来 指挥 系 
统 中 的 所 有 活动 。 
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Linux 计时 体系 结构 


Linux 必定 执行 与 定时 相关 的 操作 。 例 如 ， 内 核 周 期 性 地 : 


。 ”更 新 自 系 统 启动 以 来 所 经 过 的 时 间 。 

。 ”更 新 时 间 和 日 期 。 

。 ”确定 当前 进程 在 每 个 CPU 上 已 运行 了 多 长 时 间 ,如果 已 经 超过 了 分 配给 它 的 时 间 ， 
则 抢占 它 。 时 间 片 〈 也 叫 时 限 ) 的 分 配 将 在 第 七 章 讨 论 。 

* ”更 新 资源 使 用 统计 数 。 

*。 ”检查 每 个 软 定时 器 (参见 后 面 软 定时 器 和 延迟 函数 ”一 节 六 的 时 间 间 隔 是 否 已 到 。 


Linux 的 计时 体系 结构 (rimekeeping architecture) 是 一 组 与 时 间 流 相关 的 内 核 数据 结 
构 和 国 数 .实际 上 , 基于 80x86 多 处 理 器 机 器 所 具有 的 计时 体系 结构 与 单 处 理 器 机 器 所 
具有 的 稍 有 不 同 : 


。 ”在 单 处 理 器 系统 上 ,所 有 的 计时 活动 都 是 由 全 局 定时 器 (可 以 是 可 编程 间隔 定时 器 
也 可 以 是 高 精度 事件 定时 器 ) 产生 的 中 断 触发 的 。 


。 ”在 多 处 理 器 系统 上 , 所 有 普通 的 话 动 【 像 软 定 时 器 的 处 理 ) 都 是 由 全 局 定时 器 产生 
的 中 断 触 发 的 ， 而 具体 CPU 的 活动 ( 像 监 控 当 前 运行 进程 的 执行 时 间 ) 是 由 本 地 
APIC 定时 器 产生 的 中 断 触 发 的 。 


可 惜 ， 以 上 两 种 情况 的 区 别 有 点 模糊 。 例 如 ， 某 些 早 期 基于 Intel 80485 处 理 器 的 SMP 
系统 不 拥有 本 地 APIC。 即 使 到 了 今天 ,还 有 一 些 SMP 主板 是 有 形 首 的 ,因此 本 地 时 钟 
中 断根 本 不 稳定 。 在 这 些 情况 下 ，SMP 内核 必须 采用 单 处理 器 系统 (UP) 的 计时 体系 结 
构 。 另 一 方面 、 新 近 的 单 处 理 器 系统 拥有 本 地 APIC， 因 此 UP 内 核 通常 可 以 使 用 SMP 
的 计时 体系 结构 。 不 过 ,为 了 简化 我 们 的 讨论 , 我 们 不 打算 讨论 这 些 混杂 的 情况 ,而 集 
中 于 两 种 “ 纯 ” 的 计时 体系 结构 。 


Linux 的 计时 体系 结构 还 依赖 于 时 间 扒 计数 器 (TSC)、ACPI 电 源 管 理 定 时 器 、 高 精度 
事件 定时 器 (HPET) 的 可 用 性 。 内 核 使 用 两 个 基本 的 计时 函数 : 一 个 保持 当前 最 新 的 
时 间 ， 另 一 个 计算 在 当前 秒 内 走 过 的 纳 秒 数 。 有 有 几 种 不 同 的 方式 获得 后 一 个 值 ， 如 果 
CPU 有 TSC 或 HPET, 就 可 以 用 一 些 更 精确 的 方法 ; 在 其 他 情况 下 , 使 用 精确 性 差 一 些 
的 方法 (参见 后 面 “time() 和 gettimeofday() 系 统 调用 ”一 节 )。 


计时 体系 机 构 的 数据 结构 
Linux 2.6 的 计时 体系 结构 使 用 了 大 量 的 数据 结构 。 与 以 往 一 样 ， 我 们 将 描述 80x86 体 
系 结构 下 最 重要 的 变量 。 


定时 器 对 象 
为 了 使 用 一 种 统一 的 方法 来 处 理 可 能 存在 的 定时 器 资源 ， 内 核 使 用 了 “定时 器 对 象 ”， 它 是 
cimer_opts 类 型 的 一 个 描述 符 , 该 类 型 由 定时 器 名 称 和 四 个 标准 的 方法 组 成 , 如 表 6-1 所 示 。 


表 6-1: timer_opts 数据 结构 的 各 个 字段 


字段 名 说 了 明 

name 标识 定时 器 源 的 一 个 字符 串 

mark_offset 记录 上 一 个 节拍 的 准确 时 间 ， 由 时 钟 中 断 处 理 程序 调用 
get_offset 返回 自 上 一 个 节拍 开始 所 经 过 的 时 间 

monotonic _ clock 返回 自 内 核 初 始 化 开始 所 经 过 的 纳 秒 数 

delay | 等 待 指定 数目 的 “循环 ”( 参 见 后 面 的 “延迟 函数 ”一 节 ) 


一 


定时 器 对 象 中 最 重要 的 方法 是 mark_offset 和 get_offset。 mark_offset 方 法 由 时 钟 中 断 
处 理 程序 调用 , 并 以 适当 的 数据 结构 记录 每 个 节拍 到 来 时 的 准确 时 间 。get_offset 方 法 使 
用 已 记录 的 值 来 计算 自 上 一 次 时 钟 中 断 (节拍 ) 以 来 经 过 的 时 间 (以 hs 为 单位 )。 由 于 这 
两 种 方法 ， 使 得 Linux 计时 体系 结构 能 够 达到 子 节拍 的 分 辨 度 ， 也 就 是 说 ， 内 核能 够 以 比 
节拍 周期 更 高 的 精度 来 测定 当前 的 时 间 。 这 种 操作 被 称 作 ”定时 揪 补 (rime interpolation)”。 


变量 cur_timer 存 放 了 某 个 定时 器 对 象 的 地 址 , 该 定时 器 是 系统 可 利用 的 定时 器 资源 中 
“最 好 的 ” 。 最初 ，cur_timer 指向 timer_none, 这 个 timer_none 是 一 个 虚拟 的 定时 
器 资源 对 象 ， 内 核 在 初始 化 的 时 候 使 用 它 。 在 内 核 初始 化 期 间 ，select_timer() 函数 
设置 cur_timer 指 辣 适当 定时 器 对 象 的 地 址 。 表 6-2 以 优先 级 顺序 列 出 了 80x86 体 系 结 
构 中 最 常用 的 定时 器 对 象 。 正 如 你 所 看 到 的 ， select_timer 1() 将 优先 选择 HPET (如 
果 可 以 使 用 )， 否则 ， 将 选择 ACPI 电 源 管理 定时 器 (如 果 可 以 使 用 )， 再 次 之 是 TSC，。 
作为 最 后 的 方案 ，select_timer() 选 择 总 是 存在 的 PIT。“ 定 时 插 补 ”一 列 列 出 了 定时 
器 对 象 的 mark_offset 方 法 和 get_offset 方 法 所 使 用 的 定时 器 源 ,“ 延 迟 ” 一 列 列 出 了 
delay 方法 使 用 的 定时 器 源 。 


表 6-2: 80x86 体系 结构 下 典型 的 定时 器 对 象 ， 以 优先 权 硕 序 排列 


定时 器 对 象 名 称 说 明 定时 插 补 ”延迟 
timer_hpet 高 精度 事件 定时 器 (HPET) HPET HPET 
timer_pmtmr ”ACPI 电源 管理 定时 器 (ACPI PMT) ACPI PMT TSC 
timer_tsc 时 间 戴 计数 器 (TSC) TSC TSC 
timer_pit 可 编程 间隔 定时 器 (PIT) PIT 紧 致 循环 


timer_none 普通 虚拟 定时 器 资源 (内核 初始 化 时 使 用 ) (无 ) _ 紧 致 循环 


交 计 得 有 


注意 , 本 地 APIC 定 时 器 没有 对 应 的 定时 器 对 象 。 因 为 本 地 APIC 定 时 器 仅 用 来 产生 周期 
性 中 断 而 从 不 用 来 获得 子 节拍 的 分 辩 度 。 


jiffies 变量 

jiffies 变 量 是 一 个 计数 器 ， 用 来 记录 自 系 统 启动 以 来 产生 的 节拍 总 数 。 每 次 时 钟 中 断 
发 生 时 (每 个 节拍 ) 它 便 加 1。 在 80x86 体 系 结构 中 ，jiffies 是 一 个 32 位 的 变量 ， 因 
此 每 隔 大 约 50 天 它 的 值 会 回 绕 (wraparound) 到 0， 这 对 Linux 服务器 来 说 是 一 个 相对 
较 短 的 时 间 间 隔 。 不 过 ， 由 于 使 用 了 time_after. time_after_eq、time_before 和 和 
time_before_eq 四 个 宏 (即使 发 生 回 绕 它 们 也 能 产生 正确 的 值 ), 内 核 干 净利 索 地 处 理 
了 jiffies 变量 的 溢出 。 


你 可 能 猜想 jiffies 在 系统 启动 的 时 候 被 初始 化 为 0。 实际 上 , 事实 并 非 如 此 : jiffies 
被 初始 化 为 0xfffb6c20， 它 是 一 个 32 位 的 有 符号 值 ， 正 好 等 于 -300 000。 因 此 ， 计 数 
器 将 会 在 系统 启动 后 的 5 分 钟 内 处 于 溢出 状态 。 这 样 做 是 有 目的 的 ， 使 得 那些 不 对 
jiffies 作 溢出 检测 的 有 缺陷 的 内 核 代码 在 开发 阶段 被 及 时 地 发 现 , 从 而 不 再 出 现在 稳 
定 的 内 核 版 本 中 。 


但 是 在 某 些 情况 下 , 不 管 jiffies 是 否 溢出 , 内 核 需要 自 系 统 启动 以 来 产生 的 系统 节拍 
的 真实 数目 。 因 此 , 在 80x86 系统 中 ，jiffies 变 量 通过 连接 器 被 换算 成 一 个 64 位 计数 
器 的 低 32 位 ， 这 个 64 位 的 计数 器 被 称 作 jiffies_64。 在 1ms 为 一 个 节拍 的 情况 下 ， 
jiffies_64 变 量 将 会 在 数 十 亿 年 后 才 发 生 回 绕 , 所 以 我 们 可 以 放心 地 假定 它 不 会 游 出 。 


你 可 能 要 问 为 什么 在 80x86 体系 结构 中 jiffies 不 直接 被 声明 成 64 位 无 符号 的 长 整 型 
数 。 答 案 是 :在 32 位 的 体系 结构 中 不 能 自动 地 对 64 位 的 变量 进行 访问 。 因 此 ， 在 每 次 
执行 对 64 位 数 的 读 操作 时 ， 需 要 一 些 同 步 机 制 来 保证 当 两 个 32 位 的 计数 器 〈 由 这 两 个 
32 位 的 计数 器 组 成 的 64 位 计数 器 ) 的 值 在 被 读 取 时 这 个 64 位 的 计数 器 不 会 被 更 新 , 结 
果 是 ， 每 个 64 位 的 读 操作 明显 比 32 位 的 读 操 作 更 慢 。 


get_jiffies_64() 函 数 用 来 读 取 jiffies_64 的 值 并 返回 该 值 ;: 


unsigned long long get_jiffies_6dtwoid) 
| 
Unsigned long seq:; 
unsigned long long ret.; 
do 二 
Seg = read segqbegin(g&gxt ime_lock), 
ret = Jiffies 664: 
} while (read seqretry (&xime_lock, seq}}):;: 
IEtUrIn Tet. 


} 


xtime_lock 顺 序 销 用 来 保护 64 位 的 读 操 作 (参见 第 五 章 的 “顺序 锁 ” 一 节 ): 该 函数 一 
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直 读 jiffies_64 变量 直到 确认 读 变 量 并 没有 同时 被 其 他 内 核 控 制 路 径 更 新 时 才 读 取 
jiffies_64 变量 ， 

相反 ， 当 在 临界 区 增加 jiffies_64 变量 的 值 时 必须 使 用 write_seqlock(&xtime_lock) 和 
write_secunmLock(&xtime lock) 进 行 保护 。 注 意 ++jitfties 64 操作 同 时 也 会 增加 32 
位 的 jiffies 变量 的 值 ， 因 为 后 者 对 应 着 jiffies_64 的 低 32 位。 


xtime 变量 
xtime 变 量 存放 当前 时 间 和 日 期 ; 它 是 一 个 timespec 类 型 的 数据 结构 , 该 结构 有 两 个 字段 : 


tyY_ Sec 
存放 自 1970 年 1 月 1 日 (UTC) 午夜 以 来 经 过 的 种 数 
tv _ nsec 


存放 自 上 一 秒 开始 经 过 的 纳 秒 数 【( 它 的 值 域 范围 在 0 一 999999999 之 间 ) 


xtime 变 量 通常 是 每 个 节拍 更 新 一 次 , 也 就 是 说 , 大 约 每 秒 更 新 1000 次 。 正 如 我 们 将 在 
后 面 的 “与 定时 测量 相关 的 系统 调用 ”一 节 看 到 的 那样 ,用 户 程 序 从 xtime 变 量 获得 当 
前 时 间 和 日 期 。 内 核 也 经 常 引 用 它 , 例如 , 在 更 新 节点 时 间 惟 时 引用 (参见 第 一 章 的 “ 文 
件 描述 符 与 索引 节点 ”一 节 )。 

xtime_lock 顺 序 锁 (seqlock) 消除 了 对 xtime 变 量 的 同时 访问 而 可 能 发 生 的 竞争 条 件 。 
记 住 xtime_lock 同 样 也 保护 jiffies_64 变 量 。 一般 而 言 , 这 个 顺序 锁 用 来 定义 计时 体 
系 结 构 中 的 一 些 临界 区 。 


单 处 理 器 系统 上 的 计时 体系 结构 


在 单 处 理 器 系统 上 , 所 有 与 定时 有 关 的 活动 都 是 由 IRQ 线 0 上 的 可 编程 间隔 定时 器 产生 
的 中 断 触发 的 。 同 样 ， 在 Linux 中 ， 某 些 活 动 都 尽 可 能 在 中 断 产 生 后 立即 执行 ， 而 其 佘 
的 活动 延迟 【参见 稍 后 的 “动态 定时 器 ”一 闻 )。 


初始 化 阶段 
在 内 核 初 始 化 期 间 ，time_init1() 国 数 被 调用 来 建立 计时 体系 结构 ， 它 通常 ( 注 3) 执 
行 如 下 操作 : 








注 3; time_initi) 男 数 在 mem_init (1 之 前 被 技 行 , 它 初始 化 内 看 数 据 结构 。 踪 司 的 是 ,HPET 
寄存 器 是 由 内 看 映射 的 ， 固 此 HPET 芯片 的 初始 化 必须 在 mem_init() 执 行 之 后 完成 。 
Linux 2.6 采 用 了 一 种 麻烦 的 解决 办 法 ; 如 果肉 核 支 持 HPET 芯 片 、time_init(}) 亏 数 就 
限定 自己 去 触发 hpet_time_init(}) 而 使 其 激活 ,hpet_time_init() 罗 数 在 mem_init1) 
之 后 被 执行 并 执行 本 节 所 描述 的 操作 。 


祥 时 并 章 学 


初始 化 xime 变 量 。 利 用 get_cmcs_time() 国 数 从 实时 时 钟 上 读 取 自 1970 年 1 月 1 日 
(UTC) 午夜 以 来 经 过 的 秒 数 。 设 置 xtime 的 tv_nsec 字段 ， 这 样 使 得 即将 发 生 的 
jiffies 变 量 溢出 与 tv_sec 字 段 的 增加 保持 一 致 , 也 就 是 说 , 它 将 落 到 秒 的 范围 内 。 


初始 化 wall_to_monotonic 变 量 ,。 这 个 变量 同 xtime 一 - 样 是 timespec 类 型 ,只 不 
过 它 存 放 将 被 加 到 xtime 上 的 秒 数 和 纳 秒 数 , 以 此 来 获得 单 向 (只 增 ) 的 时 间 流 。 
其 实 ， 外 部 时 钟 的 国 秒 和 同步 都 有 可 能 突 发 地 改变 xtime 的 tv_sec 和 tv_nsec 字 
段 ， 这 样 使 得 它们 不 再 是 单 向 递增 的 。 正 如 我 们 将 在 后 面 的 “与 POSIX 定时 器 相 
关 的 系统 调用 ”一 节 看 到 的 那样 ， 有 时 内 核 需要 一 个 真正 单 向 的 时 间 源 。 

如 果 内 核 支持 HPET,， 它 将 调用 hpet_enablel() 国 数 来 确认 ACPI 固 件 是 否 探测 到 
了 该 蕊 片 并 将 它 的 寄存 器 映射 到 了 内 存 地 址 空间 中 。 如 果 结 果 是 肯定 的 ， 那 么 
hpet_enable() 将 对 HPET 芯片 的 第 一 个 定时 器 编程 使 其 以 每 种 1000 次 的 频率 引 
发 IRQ0O 处 的 中 断 。 否 则 ， 如 果 不 能 获得 HPET 必 片 ， 内 核 将 使 用 PIT: 该 芯片 已 
经 被 init_IROf) 函 数 编程 , 使 得 它 以 每 秒 1000 次 的 频率 引发 IRQ 0 处 的 中 断 ， 正 
如 前 面 的 “可 编程 间隔 定时 器 (PIT)” 一 节 描 述 的 那样 。 

调用 select_timer() 来 挑选 系统 中 可 利用 的 最 好 的 定时 器 资源 ， 并 设置 
cur_timer 变量 指 问 该 定时 器 资源 对 应 的 定时 器 对 象 的 地 址 。 

调用 setup_irq(0,&irgq0) 来 创建 与 1RQ0 相 应 的 中 断 门 , IRQ0 引 脚 线 连接 着 系统 
时 钟 中 断 源 (PIT 或 HPET)。ira0 变 最 被 静态 定义 如 下 : 


struct irgaction jiro0 = { timer interrupt, SA_INTERRUPT, 0, 
"timer", NULL, NULL }:; 


从 现在 起 ，timer_interrupt 1() 国 数 将 会 在 每 个 节拍 到 来 时 被 调用 ， 而 中 断 被 禁 
止 ， 因 为 IRQ0 主 描述 符 的 状态 字段 中 的 SA_INTERRUPT 标志 被 置 位 。 


时 钟 中 断 处 理 程序 
timer_interrupt () 函数 是 PIT 或 HPET 的 中 断 服 务 例 程 (1SR)， 它 执行 以 下 步骤 : 


] . 


在 xtime_lock 顺 序 锁 上 产生 一 个 write_seglock() 来 保护 与 定时 相关 的 内 核 变 量 
(参见 第 五 章 “ 顺 序 销 ”一 节 )。 

执行 cur_timer 定时 器 对 象 的 mark_offset 方 法。 正如 前 面 的 “计时 体系 结构 的 
数据 结构 ”一 节 解 释 的 那样 ， 有 四 种 可 能 的 情况 ; 


a. cur_timer 指 向 timer_hpet 对 象 : 这 种 情况 下 ，HPET 世 片 作为 时 钟 中 断 源 。 
mark_of fset 方 法 检查 自 上 一 个 节拍 以 来 是 否 丢 失 时 钟 中 断 , 在 这 种 不 太 可 能 
发 生 的 情况 下 , 它 会 相应 地 更 新 jiffies_64。 接着 , 该 方法 记录 下 HPET 周 期 
计数 器 的 当前 值 。 
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cur_timer 指向 timer_pmtmr 对 象 : 这 种 情况 下 ，PIT 芯片 作为 时 钟 中 断 源 ， 
但 是 内 核 使 用 APIC 电源 管理 定时 器 以 更 高 的 分 姑 度 来 测量 时 间 。 
mark_offset 方 法 检查 自 上 一 个 节拍 以 来 是 否 丢 失 时 钟 中 断 , 如 果 丢 失 则 更 新 
jiffies_64。 然 后 ， 它 记录 APIC 电源 管理 定时 器 计数 器 的 当前 值 。 


cur_timer 指 向 timer_tsc 对 象 : 这 种 情况 下 ，PIT 世 片 作为 时 钟 中 断 源 ， 但 
是 内 核 使 用 时 间 惟 计数 器 以 更 高 的 分 辨 度 来 测量 时 间 。mark_offset 方 法 执行 
与 上 一 种 情况 相同 的 操作 : 检查 自 上 一 个 节拍 以 来 是 否 丢 失 时 钟 中 断 ， 如 果 丢 
失 则 更 新 jiffies_64。 然 后 ， 它 记录 TSC 计数 器 的 当前 值 。 


cur 上 imer 指 向 上 imer_p 让 对 象 ; 这 种 情况 下 ，PIT 芯片 作为 时 钟 中 断 源 ， 除 
此 之 外 设 有 别 的 定时 器 电路 。mark_offset 方法 什么 也 不 做 。 


3， 调用 do_timer_interrupt1t) 国 数 ，dce_timer_incterrupt() 国 数 执 行 以 下 操作 ， 


有 8， 


使 jiffies_64 的 值 增 1。 注意 ,这样 做 是 安全 的 , 因为 内 核 控制 路 径 仍然 为 写 
操作 保持 着 xt ime_lock 顺序 锁 。 

调用 updaate_times() 国 数 来 更 新 系统 日 期 和 时 间 ， 并 计算 当前 系统 负载 。 这 
些 话 动 将 在 稍 后 的 “更 新 时 间 和 日 期 ”与 “更 新 系统 统计 数 ” 两 节 中 讨论 。 
调用 update_process_times{) 函数 为 本 地 CPU 执 行 几 个 与 定时 相关 的 计数 操 
作 (参见 本 章 后 面 的 “更 新 本 地 CPU 统计 数 ” 一 节 )。 

调用 profile_tick() 函 数 (参见 本 章 后 面 的 “监管 内 核 代 码 ” 一 节 )。 

如 果 使 用 外 部 时 钟 来 同步 系统 时 钟 (以 前 已 发 出 过 adjtimex() 系统 调用 ), 则 
每 隔 660 秒 (每 隔 11 分钟) 调用 一 次 set_rtc_mmss 1() 国 数 来 调整 实时 时 钟 。 
这 个 特性 用 来 帮助 网 络 中 的 系统 同步 它们 的 时 钟 (参见 后 面 的 “adjtimex() 系 
统 调 用 ”一 节 )。 


4. 调用 write_sequnlock() 释 放 xtime_lock 顺序 锁 。 
5.。 ”返回 值 1, 报告 中 断 已 经 被 有 效 地 处 理 了 (参见 第 四 章 的 “1/O 中 断 处 理 ” 一 节 )。 


多 处 理 器 系统 上 的 计时 体系 结构 
多 处 理 器 系统 可 以 依赖 两 种 不 同 的 时 钟 中 断 源 : 可 编程 间隔 定时 器 或 高 精度 事件 定时 器 
产生 的 中 断 ， 以 及 CPU 本 地 定时 器 产生 的 中 断 。 


在 Linux 2.6 中 ，PIT 或 HPET 产 生 的 全 局 时 钟 中 断 触 发 不 涉及 具体 CPU 的 活动 ， 比 如 
处 理 软 定时 刁 和 保持 系统 时 间 的 更 新 。 相反 , 一 个 CPU 本 地 时 钟 中 断 甬 发 涉及 本 地 CPU . 
的 计时 活动 ， 例 如 监视 当前 进程 的 运行 时 间 和 更 新 资源 使 用 统计 数 ，。 
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初始 化 阶段 


全 局 时 钟 中 断 处 理 程序 由 time_init{) 国 数 初 始 化 , 我 们 已 经 在 前 面 “ 单 处 理 器 系统 上 
的 计时 体系 结构 ”一 节 对 该 函数 作 了 描述 。 


Linux 内 核 为 本 地 时 钟 中 断 保留 第 239 号 (0xep) 中 断 同 量 (参见 第 四 章 表 4-2)。 在 内 核 初始 
化 阶段 ,函数 apic_intr_init () 根 据 第 239 号 向 量 和 低级 中 断 处 理 程序 apic_timer interrupt () 
的 地 址 设置 IDT 的 中 断 门 。 此 外 ， 每 个 APIC 必须 被 告知 多 久 产 生 一 次 本 地 时 钟 中 断 。 国 
数 calibrate _APIC_clock{) 通 过 正在 启动 的 CPU 的 本 地 APIC 来 计算 在 一 个 节拍 内 (1 
ms) 收 到 了 多 少 个 总 线 时 钟 信 号 。 然 后 这 个 确切 的 值 被 用 来 对 本 地 所 有 APIC 编程 ， 并 由 
此 在 每 个 节拍 产生 一 次 本 地 时 钟 中 断 。 这 是 由 setup_APIC_Limer() 函 数 完成 的 ， 该 函数 
被 系统 中 的 每 个 CPU 执行 一 次 。 


所 有 本 地 APIC 定 时 器 都 是 同步 的 , 因为 它们 都 基于 公共 总 线 时 钟 信号 。 这 意味 着 用 于 引 
导 CPU 的 caliprate_APIC_clock() 函 数 计算 出 来 的 值 对 系统 中 的 其 他 CPU 同样 有 效 。 


全 局 时 钟 中 断 处 理 程 序 

SMP 版 本 的 timer_interrupt () 处 理 程序 与 UP 版 本 的 该 处 理 程序 在 几 个 地 方 有 差异 : 

. timer_interrupt () 调 用 国 数 dao_timer_interrupt () 回 IO APIC 世 片 的 一 个 端 
口 写 人 ， 以 应 葵 定时 器 的 中 断 请 求 。 

。 update_process_times{) 国 数 不 被 调用 ,因为 该 国 数 执行 与 特定 CPU 相关 的 操作 。 

。 “profile_tick() 不 被 调用 ， 因 为 该 函数 同样 执行 与 特定 CPU 相关 的 操作 。 


本 地 时 钟 中 断 处 理 程序 
该 处 理 程序 执行 系统 中 与 特定 CPU 相 关 的 计时 活动 , 即 览 管内 核 代码 并 检测 当前 进程 在 
特定 CPU 上 已 经 运行 了 多 长 时 间 。 


汇编 语言 函数 apic_timer_interrupt 1{}) 等 价 于 下 面 的 代码 : 


apic_timer interryupt: 
pushl $1239-256) 
SAVYE ALL 
Mow] %®esp, Seax 
call smp_apic_timer_interrupt 
jmp ret_from_intr 


正如 你 所 见 , 该 低级 处 理 函 数 与 第 四 章 中 描述 过 的 其 他 低级 中 断 处 理 函 数 非 常 相似 。 被 
称 作 smp_apic_timer_interrupt () 的 高 级 中 断 处 理 国 数 执行 如 下 步骤 : 
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1. 获得 CPU 逻辑 号 (比如 说 n)。 


2. 使 irgq_stat 数组 中 第 n 项 的 apic_timer_irqs 字 段 加 1 (参见 本 章 后 面 的 “检查 
非 屏 项 中 断 (NMI) 监视 器 ”一 节 )。 


应 答 本 地 APIC 上 的 中 断 。 
调用 ira_enter1{() 国 数 【参见 第 四 章 “do_IRQO 国 数 ” 一 节 )。 
调用 smp_local_timer_interrupt () 国 数 ， 


调用 irq_exit 1() 国 数 。 


Sn tn 上 


smp_local_timer_interrupt() 国 数 执行 每 个 CPU 的 计时 活动 。 事实 上 , 它 执 行 下 面 
的 主要 步 又 : 


!. 调用 profile_tick() 函 数 (参见 本 章 后面 的 “监管 内 核 代 码 ” 一 节 )。 


2.， 调用 Lpdate_process_times |() 孙 数 检查 当前 进程 运行 的 时 间 并 更 新 一 些 本 地 CPU 
统计 数 (参见 本 章 后 面 的 “更 新 本 地 CPU 统计 数 ” 一 节 )。 


系统 管理 员 通 过 写 人 Wproc/profile 文件 可 以 修改 内 核 代码 监管 器 的 抽样 频率 。 为 实现 修 
改 ， 内 核 改变 本 地 时 钟 中 断 产生 的 频率 。 不 过 ，smp_local_timer_interrupt() 国 数 
保持 每 个 节拍 精确 调用 updaate_process_times1() 国 数 一 次 。 


更 新 时 间 和 日 期 


用 户 程 序 从 xt ime 变 量 中 获得 当前 时 间 和 日 期 内核 必须 周期 性 地 更 新 该 变量 , 才能 使 
它 的 值 保持 相当 的 精确 。 


全 局 时 钟 中 断 处理 程 序 调用 update_times () 国 数 更 新 xcime 变量 的 值 ， 代 码 如 下 : 


void update times (void) 
( 
unsigned long ticks:; 
ticks = jliffies - wall_ ijiffies: 
if {ticksy) 1 
wall_jififies += ticks; 
update wall timetticks); 
} 
calc_load(tticks):; 


} 


我 们 回忆 一 下 前 面 对 时 钟 中 断 处理 程 序 的 描述 , 当 执 行 该 国 数 代 码 时 , 已 经 获得 用 于 写 
操作 的 xtime_lock 顺序 锁 。 


KN A 


wall_jiffies 变量 存放 xtime 变量 最 后 更 新 的 时 间 。 观 察 一 下 ，wall_jiffies 的 值 
可 以 小 于 jiffies-1, 因为 一 些 定时 器 中 断 会 丢失 ,例如 当中 断 被 禁止 了 很 长 一 段 时 间 ， 
换 名 话说， 内 核 不 必 每 个 时 钟 节拍 更 新 xtime 变量 。 然 而 ， 最 后 不 会 有 了 时 钟 节拍 丢失 ， 
因此 ，xtime 最 终 存 放 正 确 的 系统 时 间 。 对 于 失 的 定时 器 中 断 的 检查 在 cur_timer 的 
mark_offset 中 完成 ， 参 见 前 面 的 “ 单 处 理 器 系统 上 的 计时 体系 结构 ”一 节 ，。 


update _ wall_time(} 了 负数 连续 调用 update_wall_ time _one_tick() 乓 数 ticks 次 ,每 
次 调用 都 给 xtime .tv_nsec 字段 加 上 1000000。 如 果 xtime.tv_nsec 的 值 大 于 
999999999,， 那么 update wall time() 国 数 还 会 更 新 xtime 的 tv_sec 字 段 。 如 果 系 统 
发 出 aajtcimex() 系 统 调用 ， 那 么 函数 可 能 会 稍微 调整 1000000 这 个 值 使 时 钟 稍 快 或 稍 
慢 一 点 【原因 请 参见 本 章 后 面 的 “adjtimex() 系 统 调 用 ”一 节 )。 


calc_loadl) 国 数 的 描述 请 参 见 本 草 后 面 的 “记录 系统 负载 ”一 节 。 


更 新 系统 统计 数 

内 核 在 与 定时 相关 的 其 他 任务 中 必须 周期 性 地 收集 若干 数据 用 于 : 
。 ”检查 运行 进程 的 CPU 资源 限制 

。 ”更 新 与 本 地 CPU 工作 负载 有 关 的 统计 数 

。 “计算 平均 系统 负载 

。 ”监管 内 核 代码 


更 新 本 地 CPU 统计 数 


我 们 曾经 提 到 过 , 单 处 理 器 系统 上 的 全 局 时 钟 中 断 处 理 程 序 或 多 处 理 器 系统 上 的 本 地 时 
钟 中 断 处 理 程 序 调 用 update_process times() 国 数 来 更 新 一 些 内 核 统计 数 。 该 函数 执 
行 以 下 步 难 : 


1. 检查 当前 进程 运行 了 多 长 时 间 。 当 时钟 中 断 发 生 时 , 根据 当前 进程 运行 在 用 户 态 还 
是 内 核 态 , 选择 调用 account_user_time () 还 是 account_system_kime()。 每 个 

a， 更 新 当前 进程 描述 符 的 utime 字 段 (用 户 态 下 所 经 过 的 节拍 数 ) 或 scime 字 段 

(内 核 态 下 所 经 过 的 节拍 数 )。 在 进程 描述 符 中 提供 两 个 被 称 作 cutime 和 
cstime 的 附加 字段 ， 分 别 用 来 统计 子 进程 在 用 户 态 和 内 核 态 下 所 经 过 的 CPU 
节拍 数 。 由 于 效率 的 原因 ，updaate_process_times{() 并 不 更 新 这 些 字 段 ， 而 
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只 是 当 父 进程 询问 它 的 其 中 一 个 子 进程 的 状态 时 才 对 其 进行 更 新 (参见 第 三 章 
的 “撤销 进程 ”一 节 )。 

b. 检查 是 否 已 达到 总 的 CPU 时 限 ， 如 果 是 ， 向 current 进程 发 送 SIGXCPU 和 
SIGKILL 信 和 号。 在 第 三 章 的 “进程 资源 限制 ”一 节 中 ,讲述 了 限制 是 如 何 被 每 
个 进程 描述 符 的 signal->rlim[RLIMIT_CPU] .rlim_cur 字 段 所 控制 的 。 

c. 调用 account_it_virt() 和 account_it_prof |() 来 检查 进程 定时 器 (参见 本 
章 后 面 的 “setitimer() 和 alarm() 系 统 调 用 ”一 节 ) 。 

d， 更 新 一 些 内 核 统计 数 ， 这 些 统计 数 存 放 在 每 CPU 变量 kstat 中 。 

2. 调用 raise_softirg{) 来 油 活 本 地 CPU 上 的 TIMER_SOFTIRO 任 务 队 列 (参见 本 
章 后 面 的 “ 软 定 时 跨 和 延迟 函数 ”一 节 ) 。 

3. 如 果 必 须 回 收 一 些 老 版 本 的 、 受 RCU 保护 的 数据 结构 ,那么 检查 本 地 CPU 是 否 经 
历 了 静止 状态 并 调用 tasklet_schedule1) 来 激 话 本 地 CPU 的 rcu tasklet 任 务 
队列 (参见 第 五 章 的 “ 读 一 拷贝 一 更 新 (RCU)” 一 市 )。 

4. ”调用 scheduler_tick() 函 数 ,， 读 函数 使 当前 进程 的 时 间 片 计数 器 减 1， 并 检查 计 
数 器 是 否 已 减 到 0。 我 们 和 将 在 第 七 章 的 “scheduler_tick(0) 函 数 ” 一 节 深 入 讨论 这 些 
操作 


记录 系统 负载 

任何 Unix 内 核 都 要 记录 系统 进行 了 多 少 CPU 活动 。 这 些 统计 数据 由 各 种 管理 实用 程序 
来 使 用 (如 top)。 用户 输入 uptime 命令 后 可 以 看 到 一 些 统计 数据 : 如 相对 于 最 后 1 分 
钟 、5 分 钟 、15 分 钟 的 “平均 负载 "。 在 单 处 理 器 系统 上 ， 值 0 意味 着 没有 活跃 的 进程 
(除了 swapper 进程 0) 在 运行 ,而 值 1 意味 着 一 个 单独 的 进程 100% 占 有 CPU, 值 大 于 
1 说 明 几 个 运行 着 的 进程 共享 CPU ( 注 4)。 

upaate times1() 在 每 个 节拍 都 要 调用 calc_locad1lt) 国 数 来 计算 处 于 TaSK_RUNNING 
或 TASK_UNINTERRUPTIBLE 状态 的 进程 数 ， 并 用 这 个 数据 更 新 平均 系统 负载 。 


监管 内 核 代 码 
Linux 包含 一 个 被 称 作 readprofiler 的 最低 要 求 的 代码 监管 器 ,Linux 开发 者 用 其 发 现 内 








注 4， Linux 在 平均 和 负载 中 和 包含 所 有 处 于 TASK_RUNNIG 和 TASK_UNINTERRUPTIBLE 状态 
的 进程 。 然 而 ,一 般 情 况 下 ， 很 少 有 进程 处 于 TASK_UNINTERRLUPTIBLE 状 态 ， 因 此 ， 
高 负载 通常 指 CPU 是 擎 忙 的 。 


有 


核 在 内 核 态 的 什么 地 方 花费 时 间 。 监 管 器 确定 内 核 的 “热点 ”(Anof spot) 一 一 执行 最 频 
繁 的 内 核 代 码 片 段 。 确 定 内核 “热点 ”是 非常 重要 的 ， 因 为 这 可 以 指出 应 当 进 一 步 优 化 
的 内 核 函 数 。 


监管 器 基于 非常 简单 的 蒙特 卡 洛 算法 ; 在 每 次 时 钟 中 断 发 生 时 , 内 核 确定 该 中 断 是 否 发 
生 在 内 核 态 ， 如 果 是 , 内 核 从 堆栈 取 回 中 断 发 生前 的 eip 寄 存 器 的 值 , 并 用 这 个 值 揭示 
中 断 发 生前 内 核 正在 做 什么 。 最 后 ， 采 样 数据 积聚 在 “热点 ”上 。 


Protile_tick() 国 数 为 代码 监管 器 采集 数据 。 这 个 国 数 在 单 处 理 器 系统 上 是 由 
do_timer_interrupt() 调 用 的 ( 即 全 局 时 钟 中 断 处 理 程序 调用 的 ) , 在 多 处 理 器 系统 上 
是 由 smp_local_timer_interrupt() 国 数 调 用 的 〈《 即 本 地 时 钟 中 断 处 理 程序 调用 的 )。 


为 了 激活 代码 监管 器 , 在 Linux 内 核 启 动 时 必须 传递 字符 串 参 数 “profile=N", 这 里 2 
表示 要 监管 的 代码 段 的 大 小 。 采 集 的 数据 可 以 从 /prociprofile 文件 中 读 取 。 可 以 通过 修 
改 这 个 文件 来 重 置 计数 器 : 在 多 处 理 器 系统 上 , 修改 这 个 文件 还 可 以 改变 抽样 频率 ( 参 
见 前 面 " 多 处 理 器 系统 上 的 计时 体系 结构 一 市 )。 不 过 , 内核 开发 者 并 不 直接 访问 /proc/ 
profile 六 件 ， 而 是 用 readprofile 系统 命令 。 


Linux 2.6 内 核 还 包含 了 另 一 个 监管 器 ， 叫 做 oprofile。 比 起 readprofile，oprofile 除了 
更 灵活 、 更 可 定制 外 ， 还 能 用 于 发 现 内 核 代码 、 用 户 态 应 用 程序 以 及 系统 库 中 的 热点 。 
当 使 用 oprofile 时 , profile_tick({) 调 用 timer_notify() 函 数 来 收集 这 个 新 监管 器 所 
使 用 的 数据 。 


检查 非 屏 蔽 中 断 (NMI) 监 规 病 


在 多 处 理 器 系统 上 , Linux 为 内 核 开 发 者 还 提供 了 另外 一 种 功能 : 看 门 狗 系 统 (watchdog 
sysiem)， 这 对 于 探测 引起 系统 冻结 的 内 核 bug 可 能 相当 有 用 。 为 了 激活 这 样 的 看 门 狗 ， 
必须 在 内 核 启 动 时 传递 nmi_watchdog 参数 。 


看 门 狗 基 于 本 地 和 LO APIC 一 个 巧妙 的 硬件 特性 : 它们 能 在 每 个 CPU 上 产生 周期 性 的 
NMI 中 断 。 因 为 NMI 中 断 是 不 能 用 汇编 语言 指令 cli 屏 项 的 , 所 以 , 即使 禁止 中 断 ， 看 
门 狗 也 能 检测 到 死 锁 。 


因而 ， 一 旦 每 个 时 钟 节拍 到 来 ， 所 有 的 CPU ， 不 管 其 正在 做 什么 ， 都 开始 执行 NMI 中 
断 处 理 程 序 ， 读 中 断 处 理 程 序 又 调用 do_nmi ()。 这 个 函数 获得 CPU 的 逻辑 号 n， 然 后 
检查 irq_stat 数组 第 nn 项 的 apic_timer_irgs 字段 (参见 第 四 章 的 表 4-8)。 如 果 该 
CPU 字段 工作 正常 ,那么 ,第 "项 的 值 必 定 不 同 于 在 前 一 个 NMI 中 断 中 读 出 的 值 . 当 CPU 
正常 运行 时 ， 第 nn 项 的 apic_timer_irgq 字 段 就 会 被 本 地 时 钟 中 断 处 理 程序 增加 (参见 
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前 面 “本 地 时 钟 中 断 处 理 程序 ”一 节 )， 如 果 计 数 器 没有 被 增加 ， 说 明 本 地 时 钟 中 断 处 
理 程序 在 整个 时 钟 节拍 期 间 根本 就 没有 被 执行 。 你 可 以 想到 ， 这 可 不 是 什么 好 事 。 


当 NMI 中 断 处 理 程序 检测 到 一 个 CPU 冻结 时 ， 就 会 融 响 所 有 的 钟 : 它 把 引起 灰 懂 的 信 
息 记 录 在 系统 日 志文 件 中 , 转 储 该 CPU 寄 存 器 的 内 容 和 内 核 栈 (内 核 OOP) 的 内 容 , 最 
后 杀 死 当前 进程 。 这 就 为 内 核 开 发 者 提供 了 发 现 错误 的 机 会 。 


软 定时 器 和 延迟 函数 


定时 器 是 一 种 软件 功能 , 即 人 允许 在 将 来 的 某 个 时 刻 , 函数 在 给 定 的 时 间 间 隔 用 完 时 被 调 
用 。 超 时 【time-out) 表示 与 定时 器 相关 的 时 间 间 隔 已 经 用 完 的 那个 时 刻 。 


内 核 和 进程 广泛 使 用 定时 器 。 大 多 数 设备 驱动 程序 利用 定时 器 检测 反常 情况 , 例如 ， 软 
盘 驱 动 程序 使 用 定时 器 在 软盘 暂时 不 被 访问 后 就 关闭 设备 的 发 动机 ,而 并 行 打印 机 设备 
利用 定时 器 检测 错误 的 打印 机 情况 。 


编程 人 员 也 经 党 利用 定时 器 在 将 来 基 一 时 刻 强 制 执行 特定 的 国 数 (参见 后 面 的 
“setitimer( 和 alarm() 系 统 调 用 ”一 节 )。 


相对 来 说 , 实现 一 个 定时 器 并 不 难 。 每 个 定时 器 都 包含 一 个 字段 , 表示 定时 器 将 需要 多 
长 时 间 才 到 期 。 这 个 字段 的 初 值 就 是 jiffies 的 当前 值 加 上 合适 的 节拍 数 。 这 个 字段 的 
值 不 再 改变 。 每 当 内 核 检 查 定时 器 时 , 就 把 这 个 到 期 字段 值 和 当前 这 一 刻 jiffies 的 值 
相 比 较 ， 当 jiffies 大 于 或 等 于 这 个 字段 存放 的 值 时 ， 定 时 器 到 期 。 


Linux 考虑 两 种 类 型 的 定时 器 ， 即 动态 定时 器 (dynamic timer) 和 间隔 定时 器 (interval 
fimer)。 第 一 种 类 型 由 内 核 使 用 ， 而 间隔 定时 器 可 以 由 进程 在 用 户 态 创建 。 


这 里 是 有 关 Linux 定时 器 的 警告 ; 因为 对 定时 器 函数 的 检查 总 是 由 可 延迟 函数 进行 ,而 
可 延迟 函数 被 激活 以 后 很 长 时 间 才 能 被 执行 , 因此 , 内 核 不 能 确保 定时 器 函数 正好 在 定 
时 到 期 时 开始 执行 , 而 只 能 保证 在 适当 的 时 间 执 行 它们 ,或 者 假定 延迟 到 几 百 毫秒 之 后 
执行 它们 。 因 此 ， 对 于 必须 严格 遵守 定时 时 间 的 那些 实时 应 用 而 言 ， 定 时 器 并 不 适合 。 


除了 软 定时 器 外 , 内 核 还 使 用 了 延迟 函数 ， 它 执行 一 个 紧凑 的 指令 循环 直到 指定 的 时 间 
间隔 用 完 。 我 们 将 在 后 面 的 “延迟 函数 ”一 节 对 它们 进行 讨论 ，。 
动态 定时 器 


动态 定时 器 (dynamic rimer) 被 动态 地 创建 和 撤消 , 对 当前 活动 动态 定时 器 的 个 数 设 有 
限制 。 


定时 测量 和 汐 


动态 定时 器 存放 在 下 列 timer_list 结构 中 ， 


struct timer_list 1 
struct list_head entry; 
unsigned long expires; 
spinlock t lock:; 
unsigned long magic:; 
void {*function) (unsigned long}; 
unsigned long data; 
tvec _ base t *bhase: 
J 
function 字 段 包 含 定时 器 到 期 时 执行 函数 的 地 址 。 Gata 字 段 指定 传递 给 定时 器 函数 的 
参数 。 正 是 由 于 data 字 段 , 就 可 以 定义 一 个 单独 的 通用 函数 来 处 理 多 个 设备 驱动 程序 
的 超时 间 题 , 在 data 字段 可 以 存放 设备 ID, 或 其 他 有 意义 的 数据 ,定时 器 函数 可 以 用 
这 些 数 据 区 分 不 同 的 设备 。 


expires 字 段 给 出 定时 器 到 期 时 间 , 时 间 用 节拍 数 表示 ,其 值 为 系统 启动 以 来 所 经 过 的 
节拍 数 。 当 expires 的 值 小 于 或 等 于 jiffies 的 值 时 ， 就 说 明 计时 器 到 期 或 终止 。 


entry 字 段 用 于 将 软 定时 器 插入 双 癌 循环 链表 队列 中 ,该 链表 根据 定时 器 expires 字 有 段 
的 值 将 它们 分 组 存放 。 我 们 将 在 本 章 后 面 描述 使 用 这 些 链 表 的 算法 。 


为 了 创建 并 激活 一 个 动态 定时 上 器， 内核 必 须 ， 

1. 如 果 需 要 ， 创 建 一 个 新 的 timer_l1ist 对 象 ， 比 如 说 设 为 t。 这 可 以 通过 以 下 几 种 
方式 来 进行 ， 
* 在 代码 中 定义 一 个 静态 全 局 变量 。 
。 在 函数 内 定义 一 个 局 部 变量 ， 在 这 种 情况 下 ， 这 个 对 象 存放 在 内 核 堆 栈 中 。 
s。 在 动态 分 配 的 描述 符 中 包含 这 个 对 象 。 

2. 调用 init_timer(&t) 国 数 初始 化 这 个 对 象 。 实 际 上 是 把 上 .base 指针 字段 置 为 
NULL 并 把 上 .1ock 自 旋 锁 设 为 “打开 。 

3. 把 定时 器 到 期 时 激活 国 数 的 地 址 存 人 function 字 段 。 如 果 需 要 ,把 传递 给 函数 的 
参数 值 存 人 data 字段 。 

4. 如 果 动 态 定 时 器 还 设 有 被 插 人 到 链表 中 ， 给 expires 字段 赋 一 个 合适 的 值 并 调用 
add_timer(&t) 国 数 把 上 元 素 揪 人 到 合适 的 链表 中 

5. 否则， 如果 动 态 定时 器 已 经 被 插入 到 链表 中 ， 则 调用 mod_timer () 函 数 来 更 新 
expires 字段 ， 这 样 也 能 将 对 象 插入 到 合适 的 链表 中 {下 面 将 讨论 )。 
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-日 定时 器 到 期 ， 内 核 就 自动 地 把 元 素 t 从 它 的 链表 中 删除 。 不 过 ， 有 时 进程 应 该 用 
ael timer()、dael_timer_sync() 或 ael_singleshot_timer_syncft) 国 数 显 式 地 从 定 
时 器 链表 中 删除 一 个 定时 器 。 事 实 上 , 在 定时 器 到 期 前 ,睡眠 的 进程 可 能 被 唤醒 ,在 这 
种 情况 下 , 唤醒 的 进程 就 可 以 选 定 撤消 某 个 定时 器 。 虽 然 从 链表 中 已 删除 的 定时 器 上 调 
用 del_timer() 没 什么 害处 ,不 过 ,在 定时 器 函数 内 删除 定时 器 是 一 种 良好 的 习惯 做 法 。 


在 Linux 2.6 中， 动态 定时 器 需要 CPU 来 激活 ， 也 就 是 说 ， 定 时 器 国 数 总 会 在 第 一 个 执 
行 ada_ timer1ll) 或 稍 后 执行 moa_timer1tl) 国 数 的 那 同 一 个 CPU 上 运行 。 不 过 ， 
de]_timer() 及 与 其 类 似 的 函数 能 使 所 有 动态 定时 器 无 效 , 即使 该 定时 器 并 不 依赖 于 本 
地 CPU 激活 。 


动态 定时 器 与 竞争 条 件 

被 异步 激活 的 动态 定时 器 有 参与 竞争 条 件 的 倾向 。 例 如 ， 考 虑 一 个 动态 定时 器 ， 它 的 
函数 作用 于 可 丢弃 的 资源 (例如 ， 内 核 模块 或 文件 数据 结构 )。 如 果 在 定时 器 函数 被 激 
活 时 资源 不 再 存在 , 那么 不 停止 定时 器 就 释放 资源 势必 导致 数据 结构 的 崩溃 。 因 此 , 一 
种 凭 经 验 的 做 法 就 是 在 释放 资源 前 停止 定时 器 : 


del_timer (&t): 
XK_Release Resources(): 


然而 , 在 多 处 理 器 系统 上 ,这 段 代 码 是 不 安全 的 ， 因为 当 调用 del_timer() 函数 时 , 定 
时 器 函数 可 能 已 经 在 其 他 CPU 上 运行 了 。 结果 , 当 定 时 器 函数 还 作用 在 资源 上 时 , 资源 
可 能 被 释放 。 为 了 避免 这 种 竞争 条 件 ， 内 核 提 供 了 del_timer_sync() 函 数 。 这 个 函数 
从 链表 中 删除 定时 器 ， 然 后 检查 定时 器 函数 是 否 还 在 其 他 CPU 上 运行 ， 如 果 是 ， 
del_timer_sync() 就 等 待 ， 直 到 定时 器 函数 结束 。 


del_timer_sync() 函数 相当 复杂 , 而 且 执 行 速度 慢 , 因为 它 必 须 小 心 考 虚 这 种 情况 : 定 
时 器 尔 数 重新 激活 它 自己 。 如果 内 核 开发 者 知道 定时 器 函数 从 不 重新 溅 活 定 时 器 , 她 就 
能 使 用 更 简单 更 快速 的 ael_singlesnhot_timer_syncl() 国 数 来 使 定时 器 无 效 ， 并 等 待 
直到 定时 器 函数 结束 。 


当然 , 也 存在 其 他 种 类 的 竞争 条 件 。 例如, 修改 已 激活 定时 器 expires 字 段 的 正确 方法 
是 调用 mod_timer(), 而 不 是 删除 定时 器 随后 又 创建 它 。 在 后 一 种 途径 中 ， 要 修改 同一 
定时 器 expires 字 段 的 两 个 内 核 控制 路 径 可 能 精 糕 地 交错 在 一 起 。 定 时 冀 国 数 在 SMP 上 
的 安全 实现 是 通过 每 个 timer_1ist 对 象 包含 的 Lock 自 旋 锁 达 到 的 : 每 当 内 核 必 须 访问 
动态 定时 器 的 链表 时 ， 就 禁止 中 断 并 获取 这 个 自 旋 锁 。 


定时 测量 247 


动态 定时 器 的 数据 结构 

选择 合适 的 数据 结构 实现 动态 定时 器 并 不 是 件 容易 的 事 。 把 所 有 定时 器 放 在 一 个 单独 的 
链表 中 会 降低 系统 的 性 能 , 因为 在 每 个 时 钟 市 拍 去 扫描 一 个 定时 器 的 长 链表 太 费 时 。 另 
一 方面 ， 维 护 一 个 排序 的 链表 效率 也 不 商 ， 因 为 插入 和 删除 操作 也 非常 费时 。 


解决 的 办 法 基于 一 种 巧妙 的 数据 结构 , 即 把 exPires 值 划分 成 不 同 的 大 小 , 并 允许 动态 
定时 器 从 大 expires 值 的 链表 到 小 expires 值 的 链表 进行 有 效 的 过 滤 。 此外, 在 多 处 理 
器 系统 中 活动 的 动态 定时 器 集合 被 分 配 到 各 个 不 同 的 CPU 中 。 


动态 定时 器 的 主要 数据 结构 是 一 个 叫做 tvec_bases 的 每 CPU 变量 (参见 第 五 章 的 “每 
CPU 变量 ”一 市 ); 它 包含 NR_CPUS 个 元 素 ， 系 统 中 每 个 CPU 各 有 一 个 。 每 个 元 素 是 一 
个 tvec_base_ 上 类 型 的 数据 结构 ， 它 包含 相应 CPU 中 处 理 动 态 定 时 器 需要 的 所 有 数据 。 
typedef struct tvec t base s 1 
spinlock _t lock; 
unsigned long timer_]jJiffies,; 
struct timer_list *running_timer:; 
tvec_ root t twi; 
tvec 七 tv: 
tvec 七 tv: 
tvec 七 twad; 
tvec 七 tw5; 
} tvec_ base_t; 


字段 tvl 的 数据 结构 为 tvec_roct_ 类 型 ， 它 包含 一 个 vec 数组 ， 这 个 数组 由 256 个 
list_head 元 素 组 成 ( 即 由 256 个 动态 定时 器 链表 组 成 )。 这 个 结构 包含 了 在 紧 接 着 到 来 
的 255 个 节拍 内 将 要 到 期 的 所 有 动态 定时 器 。 


字段 tv2, tv3 和 tv4 的 数据 结构 都 是 tvec_t 类 型 ， 该 类 型 有 一 个 数组 vec (包含 64 
个 1ist_head 元 素 ) 。 这 些 链表 包含 在 紧 接 着 到 来 的 24-1、22-1 以 及 2”%-1 个 节拍 内 将 
要 到 期 的 所 有 动态 定时 器 。 


字段 tv5 与 前 面 的 字段 几乎 相同 ,但 唯一 区 别 就 是 vec 数 组 的 最 后 一 项 是 一 个 大 ezxqpires 
字段 值 的 动态 定时 器 链表 。tv5 从 不 需要 从 其 他 的 数组 补充 。 图 6-1 用 图 例 说 明了 5 个 链 
表 组 。 

timer_jiffies 字段 的 值 表示 需要 检查 的 动态 定时 器 的 最 早 到 期 时 间 : 如 果 这 个 值 与 
jiffies 的 值 一 样 ， 说 明 可 延迟 函数 没有 积压 ， 如 果 这 个 值 小 于 jiffies, 说 明 前 几 个 
节拍 相关 的 可 延迟 函数 必须 处 理 。 该 字段 在 系统 局 动 时 被 设置 成 jiffies 的 值 , 且 只 能 
由 run_timer_softirq() 朱 数 (将 在 下 一 节 拉 述 ) 增加 它 的 值 。 注 意 当 处 理 动态 定时 
器 的 可 延迟 销 数 在 很 长 一 段 时 间 内 都 没有 被 执行 时 (例如 由 于 这 些 销 数 被 禁止 或 者 已 经 
执行 了 大 量 中 断 处 理 程序 )，timer_jiffies 字段 可 能 会 落后 jiffies 许 多 。 


站 
十 


248 第 六 


tvec bases 


mo [ou on ous) 
a 


tvec base 上 


tvec_root 1 


ES 


Dy 口 
3 


(<241) (<22-1) (<22-1) (e231} 
动态 定时 器 链表 





6-1: 与 动态 定时 器 相关 的 链表 组 


在 多 处 理 器 系统 中 ,字段 running_cimer 指 向 由 本 地 CPU 当前 正 处 理 的 动态 定时 器 的 
timer_list 数据 结构 。 


动态 定时 器 处 理 


尽管 软 定时 器 有 具有 巧妙 的 数据 结构 ， 但 是 对 其 处 理 是 一 种 耗 时 的 活动 ， 所 以 不 应 该 被 时 钟 
中 断 处 理 程序 执行 。 在 Linux 2.6 中 该 活动 由 可 延迟 函数 来 执行 ,也 就 是 由 TIMER_SOFTIRO 
软 中 断 执 行 。 
run timer_softira(t) 国 数 是 与 TIMER_SOFTIRO 软 中 断 请 求 相 关 的 可 延迟 国 数 。 它 实 
质 上 执行 如 下 操作 
1. 把 与 本 地 CPU 相关 的 tvec_base_t 数据 结构 的 地 址 存放 到 base 本 地 变量 中 。 
2. 获得 base->lock 自 旋 锁 并 禁止 本 地 中 断 。 
3. 开始 执行 一 个 while 循环 , 当 pbase->timer jiffies 大 于 jiffies 的 值 时 终止 。 
在 每 一 次 人 循环 过 程 中 ， 执 行 下 列子 步 又 : 
a. 计算 base->tvl 中 链表 的 索引 ， 读 索引 保存 着 下 一 次 将 要 处 理 的 定时 器 ， 


index = base->timer jiffies & 255; 


人 


“人 


b. 


如 果 索 引 值 为 0， 说明 base->tvl 中 的 所 有 链表 已 经 被 检查 过 了 ， 所 以 为 空 ， 
于 是 该 函数 通过 调用 cascade () 来 过 滤 动 杰 定 时 器 ， 


if {1!index é&& 


(cascade base, &base->tv2, (base->timer jiffies»»> 9)&63)} && 
(cascade base, &kbase->tvi, (base->stimer_ jiffies>»>14)&63)) & 
(1cascade!base, &base->tv4, (base->timer jiffies>>20})&63)}) 


cascade [base, &bhase->tv5, (base->timer jiffies>>26)&63).; 


考虑 第 一 次 调用 cascade () 函数 的 情况 : 它 接 收 base 的 地 址 . base->tv2 的 地 址 、 
base->tv2 (包括 在 紧 接 着 到 来 的 256 个 节拍 内 将 要 到 期 的 定时 器 ) 中 链表 的 索引 
作为 参数 ,该 索引 值 是 通过 观察 pase->timer_jiffies 的 特殊 位 上 的 值 来 决定 的 。 
cascaqe() 国 数 将 base->tv2 中 链表 上 的 所 有 动态 定时 器 移 到 base->tvl 的 适当 
链表 上 。 然 后， 如 果 所 有 base->tv2 中 的 链表 不 为 室 ， 它 返回 一 个 正 值 。 如 base 
->tv2 中 的 链表 为 室 ，cascade() 将 再 次 被 调用 , 把 base->tv3 中 的 某 个 链表 上 包 
含 的 定时 器 填充 到 base->tv2 上 ， 如 此 等 等 。 


C, 


d. 


尼 . 


使 base->timer jiftfies 的 值 加 1。 


对 于 base->ktvl.vec[indexj] 链 表 上 的 每 一 个 定时 器 , 执行 它 所 对 应 的 定时 器 
函数 。 特别 说 明 的 是 ,链表 上 的 每 个 imer_lisc 元 素 上 实质 上 执行 以 下 步骤 : 


(1) 将 t 从 base->tvl 的 链表 上 删除 。 

(2) 在 多 处 理 器 系统 中 ， 将 base->running_timer 设 置 为 &t (t 的 地 址 )。 
(3) 设置 t .base 为 NULL。 

(4) 释放 base->lock 自 旋 销 ， 并 允许 本 地 中 断 。 

(5) 传递 t .data 作为 参数 ， 执 行 定时 器 录 数 t+ .function。 

(6) 获得 base->lock 自 旋 锁 ， 并 禁止 本 地 中 断 。 

(7) 如 果 链 表 中 还 有 其 他 定时 器 ， 则 继续 处 理 。 

链表 上 的 所 有 定时 器 已 经 被 处 理 。 继 续 执行 最 外 层 while 循环 的 下 一 次 循环 。 


最 外 层 的 while 循环 结束 ， 这 就 意味 着 所 有 到 期 的 定时 器 已 经 被 处 理 了 。 在 多 处 
理 器 系统 中 ， 设 置 base->running_timer 为 NULL。 


释放 base->lock 自 旋 锁 并 允许 本 地 中 断 。 


由 于 jiffies 和 timer_jiffies 的 值 经 常 是 一 样 的 , 所 以 最 外 层 的 while 循 环 常常 只 执 
行 一 次 。 一 般 情 况 下 , 最 外 有 层 循 环 会 连续 执行 jiffies - base->timer_ :iffies + 1 
次 。 此 外 ， 如 果 在 run_timer_softirg({) 正 在 执行 时 发 生 了 时 钟 中 断 ， 那 么 也 得 考虑 
在 这 个 节拍 所 出 现 的 到 期 动态 定时 器 , 因为 jiffies 变 量 的 值 是 由 全 局 时 钟 中 断 处 理 程 
序 异 步 增 加 的 (参见 前 面 的 “时 钟 中 断 处 理 程序 ”一 节 )。 
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请 注意 ,就 在 进入 最 外 层 循环 前 , run_timer_softirg() 要 禁止 中 断 并 获取 base->lock 
自 旋 锁 ; 调用 每 个 动态 定时 器 函数 前 ， 沿 话 中 断 并 释放 自 旋 锁 ， 直 到 函数 执行 结束 。 这 
就 保证 了 动态 定时 器 的 数据 结构 不 被 交错 执行 的 内 核 控 制 路 径 所 破坏 。 


综 上 所 述 可 知 , 这 种 相当 复杂 的 算法 确保 了 极 好 的 性 能 。 让 我 们 来 看 看 为 什么 , 为 了 简单 
起 见 , 假定 TIMER_SOFTIRQ 软 中 断 正 好 在 相应 的 时 钟 中 断 发 生 后 执行 。 那 么 , 在 256 次 
中 出 现 的 255 次 时 钟 中 断 (也 就 是 在 99.6% 的 情况 中 )，run_imter_ softirq () 仅 仅 运 
行 到 期 定时 器 的 函数 。 为 了 周期 性 地 补充 base->tvl.vec, 在 64 次 补充 当中 ，63 次 足以 
把 base->tv2 指 向 的 链表 分 成 base->tvl 指 向 的 256 个 链表 。, 依次 地 ,base->tv2 .vec 数 
组 必须 在 0.006% 的 情况 下 得 到 补充 ， 即 每 16.4 种 一 次 。 类 似 地 ,每 17 分 28 秒 补充 一 次 
base->tv3 .vec, 每 18 小 时 38 分 补充 一 次 base->tv4 ,vec, 而 base->tv5.vec 不 需 被 补 
充 。 


动态 定时 器 应 用 之 一 : nanosleep() 系 统 调用 


为 了 说 明 前 面 所 有 活动 的 结果 如 何在 内 核 中 实际 使 用 ,我 们 给 出 创建 和 使 用 进程 延 时 的 
例子 。 


让 我 们 考虑 nanosleep() 系 统 调用 的 服务 例 程 , 即 sys_nanosleep【), 它 接收 一 个 指 问 
timespec 结 构 的 指针 作为 参数 , 并 将 调用 进程 挂 起 直到 特定 的 时 间 间 隔 用 完 。 服务 例 程 
首先 调用 copy_from_user () 和 将 包含 在 timespec 结构 (用 户 态 下 ) 中 的 值 复制 到 局 部 
变量 t 中 。 假 设 timespec 结构 定义 了 一 个 非 空 的 延迟 ， 接 着 函数 执行 如 下 代码 : 


CUrrent ->state = TASK INTERRUPTIBLE: 
remaining = schedule timeout (timespec to_ijiffies (gt}+1); 


timespec_to_ jiffiesf) 国 数 将 存放 在 timespec 结 构 中 的 时 间 间 隔 转 换 成 节拍 数 。 为 
保险 起 见 ，sys_nanosleep{) 为 timespec_to_jiffies() 计 算出 的 值 加 上 一 个 节拍 。 


内 核 使 用 动态 定时 器 来 实现 进程 的 延 时 。 它 们 出 现在 scheGule_timeout () 国 数 中 ， 该 
范 数 执行 下 列 语句 ，; 


struct 七 Imer list timaer:; 

unsigned long expire = timeout + ijiffies: 
init timer (&timer); 

timer.expires = expire; 

timer.data = {unsigned long}) current; 
timer.function = Drocess timeout; 

add timer (gtimer}): 

scheduilel); /* 进程 挂 起 直到 定时 器 到 时 */ 
del_singleshot timer_sync (&t imer!}:; 
timeout = explre 一 jiffies; 

return (timeout < 0 ?0 : timeout):; 
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当 schedule!() 被 调用 时 ， 就 选择 另 一 个 进程 执行 ， 当 前 一 个 进程 恢复 执行 时 ， 该 国 数 
就 删除 这 个 动态 定时 器 。 在 最 后 一 句 中 ， 国 数 返 回 的 值 有 两 种 可 能 ，0 表示 延 时 到 期 ， 
timeout 表示 如 果 进 程 因 某 些 其 他 原因 被 唤醒 ， 到 延 时 到 期 时 还 剩余 的 节拍 数 。 


当 延 时 到 期 时 ， 内 核 执行 下 列 函 数 


Void process timeout (unsigned long __data) 
{ 

wake_uUp_process(ltask_ t *}__data); 
] 


process_timeout () 接 收 进程 描述 符 指 针 作 为 它 的 参数 ， 该 指针 存放 在 定时 器 对 象 的 
Gata 字 段 。 结 果 ， 挂 起 的 进程 被 唤醒 。 


一 旦 进程 被 晚 醒 ， 它 就 继续 执行 sys_nanosleep{) 系统 调用 。 如 果 schedule_ 
timeout () 返 回 的 值 表明 进程 延 时 到 期 ( 值 为 0)， 系 统 调用 就 结束 。 否 则 ， 系统 调用 将 
自动 重新 启动 ， 正 如 第 十 一 章 的 “系统 调用 的 重新 执行 ”一 节 中 解释 的 那样 。 


当 内 核 需要 等 待 一 个 较 短 的 时 间 间 隔 一 一 比方 说 ， 不 超过 几 毫 种 时， 就 无 需 使 用 软 定 
时 器 。 例 如 , 通常 设备 驱动 器 会 等 待 预先 定义 的 数 个 微 秒 直 到 硬件 完成 某 些 操 作 。 由 于 
动态 定时 器 通常 有 很 大 的 设置 开销 和 一 个 相当 大 的 最 小 等 待 时 间 (1ms), 所 以 设备 驱动 
器 使 用 它 会 很 不 方便 。 


在 这 些 情况 下 , 内核 使 用 uaelay () 和 ndelay (1) 国 数 : 前 者 接收 一 个 微 秒 级 的 时 间 间 隔 
作为 它 的 参数 ， 并 在 指定 的 延迟 结束 后 返回 ; 后 者 与 前 者 类 似 , 但 是 指定 延迟 的 参数 是 
纳 种 级 的 。 


本 质 上 两 个 函数 定义 如 下 : 


void udelay [unsigned long usecs) 

| 
unsignegd long loops; 
loops = ‘uUSECS*HZ*cUurrent cpu_data.loops_ per_jiffy)/1000000; 
cur_ timer->delay (loops}):; 

} 


VoOid ndelay lunsigned long nsecs) 

{ 
unsigned long loops; 
loops = (nsecs*H2Z*cuUurrent_cpu_data.loops _ per_jiftfy}/1000000000; 
cur timer->delay (loops):; 
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两 个 函数 都 依赖 于 cur_timer 定 时 器 对 象 的 delay 方 法 (参见 前 面 的 “计时 体系 结构 的 
数据 结构 ”一 节 )， 它 接收 “loops” 中 的 时 间 间 隔 作 为 参数 。 不 过 每 一 次 Iloop” 精确 
的 持续 时 间 取 决 于 cur_ timer 涉 及 的 定时 器 对 象 (参见 本 章 前 面 的 表 6-2) 。 


. 如 果 cur_timer 指 疝 timer_hpet、timer_pmtmr 和 timer tsc 对 象 ， 那 么 一 次 
“loop" 对 应 于 一 个 CPU 循环 一 一 也 就 是 两 个 连续 CPU 时 钟 信号 间 的 时 间 间 隔 ( 参 
见 前 面 的 “时 间 惟 计数 器 (TSC)” 一 市 )。 

. 如 果 cur_timer 指 向 timer_none 或 timer_pit 对 象 , 那么 一 次 “loop” 对 应 于 一 
条 紧凑 指令 循环 在 一 次 单独 的 循环 中 所 花费 的 时 间 。 


在 初始 化 阶段 ，select _ timert) 设置 好 cur_timer 后 ， 内 核 通 过 执行 
calibrate_delay () 函 数 来 决定 一 个 节拍 里 有 多 少 次 “loop”。 这 个 值 被 保存 在 
current_cpu_data.loops_per_jiffy 恋 量 中 ， 这 样 udelay () 和 ndelay () 就 能 根据 
它 来 把 微 秒 和 纳 秒 转换 成 “loops”，。 


当然 ， 如 果 可 以 利用 HPET 或 TSC 硬件 电路 ,那么 cur_timer->delay1() 方 法 使 用 它们 
来 获得 精确 的 时 间 测 量 。 否 则 ， 该 方法 执行 一 个 紧 烘 指令 循环 的 loops 次 循环 。 





与 定时 测量 相关 的 系统 调用 


有 几 个 系统 调用 允许 用 户 态 下 的 进程 读 取 及 修改 时 间 和 日 期 , 以 及 创建 定时 器 。 让 我 们 
对 它们 进行 一 些 简单 的 回顾 ， 并 讨论 一 下 内 核 是 如 何 处 理 它们 的 。 


time() 和 gettimeofday() 系 统 调 用 
用 户 态 下 的 进程 通过 以 下 几 个 系统 调用 获得 当前 时 间 和 日 期 : 


timet)} 
返回 从 1970 年 1 月 1 日 午夜 (UTC) 开始 所 走 过 的 秒 数 。 

gettimeofday!() 
返回 从 1970 年 1 月 1 日 午夜 (UTC) 开始 所 走 过 的 秒 数 及 在 前 1 秒 内 走 过 的 微 秒 
数 , 这 个 值 存放 在 数据 结构 timeval 中 (第 二 个 岂 做 timezone 的 数据 结构 目前 还 
役 有 使 用 )。 


time () 系统 调用 被 gettimeofday () 取 代 ， 但 是 ， 为 了 保持 向 后 兼容 ，Linux 中 还 包含 
它们 。 另 一 个 被 广泛 使 用 的 函数 ftime1) 不 再 作为 一 个 系统 调用 来 执行 , 它 返 回 从 1970 
年 1 月 1 日 午夜 (UTC) 开始 所 走 过 的 种 数 与 前 1 秒 内 所 走 过 的 毫秒 数 。 
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gettimeofday () 系统 调用 由 sys_gettimeofday ()} 国 数 实现 。 为 了 计算 一 天 中 的 当前 
时 间 和 日 期 ， 这 个 函数 又 调用 do_ gettimeofday()， 它 执行 下 列 动作 ， 
1， 为 读 操作 获取 xtime_lock 顺序 锁 。 
2. 调用 cur_timer 定 时 器 对 象 的 get_offset 方 法 来 确定 自 上 一 次 了 时钟 中 断 以 来 所 走 
过 的 微 秒 数 。 
USeC = CUr_ Limer->getoffset'():; 
正如 前 面 的 “计时 体系 结构 的 数据 结构 "一 节 解 释 的 那样 ,这 里 有 四 种 可 能 的 情况 ， 
a， 如 果 cur_timer 指向 timer_hpet 对 象 ， 读 方法 将 HPET 计数器 的 当前 值 与 上 
一 次 时 钟 中 断 处 理 程序 执行 时 在 同一 个 计数 器 中 保存 的 值 相 比较 。 
b， 如 果 cur_timer 指向 timer_pmtmr 对 象 ， 读 方法 将 ACPI PMT 计数 器 的 当前 
值 与 上 一 次 时 钟 中 断 处 理 程序 执行 时 在 同一 个 计数 器 里 保存 的 值 相 比 较 。 
c.， 如 果 cur_timer 指 向 timer_tsc 对 象 , 该 方法 将 时 间 惟 计数 器 的 当前 值 与 上 一 
次 时 钟 中 断 处 理 程序 执行 时 在 同一 个 TSC 里 保存 的 值 相 比较 。 
d， 如 果 cur_timer 指向 timer_pit 对象， 该 方法 读 取 PIT 计数 器 的 当前 值 来 计 
算 自 上 一 次 PIT 时 钟 中 断 以 来 所 走 过 的 微 秒 数 。 
3. 如 果 某 定时 器 中 断 于 和 失 (参见 本 章 前 面 的 “更 新 时 间 和 日 期 "一 节 ), 读 函数 为 usec 
加 上 相应 的 延迟 : 
usec += (Jiffies - wall_jiffies}) * 1000; 
4. 为 usec 加 上 前 1 秒 内 走 过 的 微 种 数 : 


Usec += {xtime.ty nsec / 1000}; 


5. 将 xcime 的 内 容 复 制 到 系统 调用 参数 tv 指定 的 用 户 空间 缓冲 区 中 , 并 给 微 秒 字段 
的 值 加 上 usec: 
tv-=tYy Sec = XxXtime->tyv_ Sec; 
tyv=>ty USEC = USec; 
6. 在 xtime_lock 顺序 锁 上 调用 read_seqretry()， 并 且 如 果 另 一 条 内 核 控 制 路 径 
同时 为 写 操 作 而 获得 了 xtime_lock， 则 上 跳 回 到 步骤 1。 


7. 检查 微 秒 字段 是 否 游 出， 如 果 必 要 则 调整 该 字段 和 秒 字段 : 


while {tyv=sty UsSec >= 1000000) { 
ty-sty usec -= 1000000; 
tv-=ty Sec+i+i:} 


} 


拥有 root 权 限 的 用 户 态 下 的 进程 可 以 用 stime() 和 setcimeofday{() 中 任意 一 种 系统 调 
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用 来 修改 当前 日 期 和 时 间 。svys_sett:meofaay1() 国 数 调用 do_settimeofdqav()， 该 国 
数 执行 dc_gettimeofday () 操 作 的 反 操作 。 


请 注意 当 这 两 个 系统 调用 修改 xtime 的 值 时 都 没有 修改 RTC 寄 存 器 ,因此 当 系 统 关 机 时 
新 的 时 间 会 丢失 ， 除 非 用 户 执 行 ciock 程序 来 改变 RTC 的 值 。 


adjtimex() 系 统 调用 

尽管 时 钟 的 走动 确保 了 所 有 的 系统 最 终 都 会 从 恰当 的 时 间 离 开 , 但 是 , 突然 改变 时 间 既 
是 一 种 管理 的 失误 也 是 一 种 危险 的 行为 ,例如 ,设想 程序 员 试 图 编译 一 个 大 规模 的 程序 ， 
并 依靠 文件 时 间 标 记 来 确保 旧 的 文件 对 象 被 重新 编译 。 系 统 时 间 大 的 改动 可 能 搞 乱 
make 程序 ， 并 导致 不 正确 的 编译 。 当 在 计算 机 网 络 上 执行 一 个 分 布 式 文件 系统 时 ， 保 
持 时 钟 的 调整 也 是 很 重要 的 。 在 这 种 情况 下 ， 明 智 的 做 法 是 ， 调 整 互 连 PC 的 时 钟 以 使 
所 存 取 文件 的 inode 中 的 时 间 标 记 值 都 保持 一 致 。 因 此 ， 通 常 把 系统 配置 成 能 在 常规 基 
淮 上 运行 时 间 同 步 协议 , 例如 网 络 定时 协议 (NTP), 以 在 每 个 节拍 逐渐 地 调整 时 间 。 在 
Linux 中 ， 这 个 实用 程序 依赖 于 adjtimex() 系统 调 用 。 

尽管 这 个 系统 调用 不 应 该 用 在 打算 移植 的 程序 中 ， 但 它 还 是 出 现在 几 个 Unix 变种 中 。 
adjtimex1f) 接 收 指向 timex 结 构 的 指针 作为 参数 ， 用 上 imex 字 段 中 的 值 更 新 内 核 参 数 ， 
并 返回 具有 当前 内 核 值 的 同一 结构 。upqate_wal1l_cime_one_tickf() 使 用 这 样 的 内 核 
值 对 每 一 个 节拍 中 加 到 xtime .tv_usec 的 微 秒 数 进行 细微 地 调整 。 


setitimer() 和 alarm() 系 统 调用 

Linux 允许 用 户 态 的 进程 激活 一 种 叫做 间隔 定时 器 的 特殊 定时 器 ( 注 5)。 这 种 定时 器 引 
起 的 Unix 信 号 (参见 第 十 一 章 ) 被 周期 性 地 发 送 到 进程 。 也 可 能 激活 一 个 间隔 定时 器 以 
便 在 指定 的 延 时 后 它 仅 发 送 一 个 信号 。 因 此 ， 间 隔 定 时 器 由 以 下 两 个 方面 来 刻画 : 

。 ”发 送信 和 号 所 必需 的 频率 ， 或 者 如 果 只 需要 产生 一 个 信和 号， 则 频率 为 空 

。 在 下 一 个 信号 被 产生 以 前 所 剩余 的 时 间 

在 本 章 前 面 关于 精确 性 的 警告 同样 适用 于 这 些 定时 器 。 在 要 求 的 时 间 已 过 去 之 后 ,可 以 
确保 这 些 定时 器 执行 ， 但 是 不 可 能 预知 恰好 在 什么 时 候 会 执行 它们 。 

通过 POSIX setitimer() 系 统 调用 可 以 激活 间隔 定时 器 。 第 一 个 参数 指定 应 当 采 取 下 
面 的 哪 一 个 策略 ; 








广 5; 这 些 软件 的 拘 遗 与 本 章 前 面 所 描述 的 可 编程 间隔 定时 器 没有 什么 共同 之 处 。 


和 和 2 有 


ITIMER_REAL 

真正 过 去 的 时 间 : 进程 接收 SIGALRM 信号 
ITIMER_VIRTUAL 

进程 在 用 户 态 下 花费 的 时 间 ， 进程 接收 STGVTALRM 信号 
ITIMER_PROF 


进程 既 在 用 户 态 下 又 在 内 核 态 下 所 花费 的 时 间 ， 进 程 接收 SIGPROF 信号 


间隔 定时 器 既 能 一 次 执行 也 能 周期 性 循环 .setit:mer() 的 第 二 个 参数 指向 一 个 让 imerval 
类 型 的 结构 ， 它 指定 了 定时 器 初始 的 持续 时 间 (以 s 和 ms 为 单位 ) 以 及 定时 器 被 自动 重新 
油 活 后 使 用 的 持续 时 间 ( 对 于 一 次 性 执行 的 定时 器 而 言 为 0)。setitimer() 的 第 三 个 参数 
是 一 个 指针 ， 它 是 可 选 的 , 指向 一 个 itimerval 类 型 的 结构 ， 系 统 调用 将 先前 定时 器 的 参 
数 填充 到 该 结 构 中 。 


为 了 能 分 别 实现 前 述 每 种 策略 的 间隔 定时 器 ， 进 程 描述 符 要 包含 3 对 字段 ; 
. it_ real _ incr 和 it real value 
和 it virt incr 和 it virt value 


. it prof_inc“ 和 it_prof_value 


每 对 中 的 第 一 个 字段 存放 着 两 个 信号 之 则 以 市 拍 为 单位 的 间隔 ; 另 一 个 字段 存放 着 定时 
颖 的 当前 值 。 


ITIMER_REAL 间隔 定时 器 是 利用 动态 定时 器 实现 的 ， 因 为 即使 进程 不 在 CPU 上 运行 
时 ， 内 核 也 必须 向 进程 发 送信 号 。 因 此 ， 每 个 进程 描述 符 包 含 一 个 叫 real_kimer 的 动 
态 定时 器 对 象 ,setitimer1{) 系 统 调用 初始 化 real_timer 字 段 ,然后 调用 adqq_timer1) 
把 动态 定时 器 插入 到 合适 的 链表 中 。 当 定时 器 到 期 时 ， 内 核 执行 it_real_fn() 定 时 器 
六 数 。it_real_fn() 函 数 又 向 进程 发 送 一 个 SIGALRM 信息。 如 果 it_real_incr 不 为 
空 ， 那 么 它 会 再 次 设置 expires 字 段 ， 并 重新 激活 定时 器 。 


ITIMER_VIRTUAL 和 ITIMER_PROF 则 隔 定时 器 不 需要 动态 定时 器 , 因为 只 有 当 进 程 
运行 时， 它们 才能 被 更 新 。account_it_virt{) 和 account_it_prof (} 由 update_ 
process_times() 调 用 ， 而 update_ process_times() 在 单 处 理 器 上 由 PIT 的 时 钟 中 
断 处 理 程序 调用 , 在 多 处 理 器 上 由 本 地 时 钟 中 断 处 理 程 序 调 用 。 因 此 ,每 个 节拍 中 ,这 
两 个 间隔 定时 器 都 被 更 新 一 次 ,并 且 如 果 它 们 到 捧 , 就 给 当前 进程 发 送 一 个 合适 的 信号 。 


alarm() 系统 调用 会 在 一 个 指定 的 时 间 间 隔 用 完 时 向 调用 的 进程 发 送 一 个 SITGALRM 信 
号 。 当 以 ITIMER_REAL 为 参数 调用 了 时, 它 非常 类 似 于 setitimer{), 因为 它 利 用 了 包 
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含 在 进程 描述 符 中 的 real_timer 动 态 定时 器 。 因此, 具有 ITIMER_REAL 参 数 的 alarm |) 
和 setitimer |() 不 能 同时 使 用 。 


与 POSIX 定时 器 相关 的 系统 调用 
POSIX 1003.1b 标准 为 用 户 态 程序 引入 了 一 种 新 型 软 定时 器 , 尤其 是 针对 多 线程 和 实时 
应 用 程序 。 这 些 定时 器 常 被 称 作 POSIX 定时 器 。 


要 执行 每 个 POSIX 定时 器 ,必须 向 用 户 态 程序 提供 一 些 POSIX 时 钟 ， 也 就 是 说 , 虚拟 时 
间 源 预定 闵 了 分 辨 度 和 属性 。 只 要 应 用 程序 想 使 用 POSIX 定 时 器 , 它 就 创建 一 个 新 的 定 
时 器 资源 并 指定 一 个 现存 的 POSIX 时 钟 来 作为 定时 基 叭 。 表 6-3 列 出 了 允许 用 户 来 处 理 
POSIX 时 钟 和 定时 器 的 一 些 系 统 调 用 。 


表 6-3: 与 POSIX 定时 器 和 时 钟 相关 的 系统 调用 


系统 调用 说 明 

clock gettimet} 获得 一 个 POSIX 时 钟 的 当前 值 

clock_settime{) 设置 一 个 POSIX 时 钟 的 当前 值 

clock_getrest) 获得 一 个 POSIX 时 钟 的 分 辩 庶 

timer createt) 在 指定 POSIX 时 钟 基础 上 创建 一 个 新 的 POSIX 定时 器 
timer_gettime!{) 获得 一 个 POSIX 定时 弗 的 当前 值 和 增 量 
timer_settimet{) 设置 一 个 POSIX 定时 器 的 当前 值 和 增 量 

上 imer_getoverrun 1 ) 获得 到 期 POSIX 定时 器 到 期 的 数目 

timer deletet) 销毁 一 个 POSIX 定时 器 

clock_nanosleep() 《使 进程 进入 睡眠 状态 并 使 用 一 个 POSIX 时 钟 作为 时 间 源 





Linux 2.6 内 核 提 供 两 种 类 型 的 POSIX 时 钟 ， 


CLOCK_REALTIME 
该 虚拟 时 钟表 示 系 统 的 实时 时 钟 一 一 本 质 上 是 xt ime 变量 的 值 (参见 前 面 的 “更 
新 时 间 和 日 期 ”一 节 )。clock_getres{) 系 统 调用 返回 的 分 辩论 为 999 848ns， 对 
应 1s 内 更 新 xtime 大 约 1000 次 。 

CLOCK_MONOTONIC 
该 虚拟 时 钟表 示 由 于 与 外 部 时 间 源 的 同步 ， 每 次 回 到 初 值 的 系统 实时 时 钟 。 实 际 
上 , 该 虚拟 时 钟 由 xtime 和 wal1_to_monotonic 两 个 变量 的 和 表示 《参见 前 面 “ 单 
处 理 器 系统 上 的 计时 体系 结构 ”一 节 ), 该 POSIX 时 钟 的 分 辩 度 由 clock_getres () 
返回 ， 返 回 值 为 999 848ns。 
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Linux 内 核 使 用 动态 定时 器 来 实现 POSIX 定时 器 。 因 此 , 它们 与 我 们 在 前 面 一 节 摘 述 的 
ITIMER_REaADE 间隔 定时 器 相似 。 不过，POSIX 定时 跨 比 传统 间隔 定时 器 更 灵活 、 更 可 
靠 。 它 们 之 间 有 两 个 显著 区 别 : 


*。 ” 当 传 统 间 隔 定时 器 到 期 时 ， 内 核 会 发 送 一 个 SIGALRM 信号 给 进程 来 激活 定时 器 。 
而 当 一 个 POSIX 定 时 器 到 期 时 ,内 核 可 以 发 送 各 种 信号 给 整个 多 线程 应 用 程序 ,也 
可 以 发 送 给 单个 指定 的 线程 ,内 核 还 能 在 应 用 程序 的 某 个 线程 上 强制 执行 一 个 通告 
器 了 国 数 ， 或 者 甚至 什么 也 不 做 (这 取决 于 处 理事 件 的 用 户 态 尔 数 库 )。 

。 如果 一 个 传统 间隔 定时 器 到 期 了 很 多 次 但 用 户 态 进 程 不 能 接收 SIGALRM 信 和 号 ( 例 
如 由 于 信号 被 阻塞 或 者 进程 不 处 于 运行 态 )， 那么 只 有 第 一 个 信号 被 接收 到 ， 其 他 
所 有 SIGALRM 信 号 都 挂失 了 。 对 于 POSIX 定时 器 来 说 会 发 生 同 样 的 情况 , 但 进程 
可 以 调用 timer_getoverrun() 系统 调用 来 得 到 自 第 一 个 信号 产生 以 来 定时 器 到 期 
的 次 数 。 
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Linux 与 任何 分 时 系统 一 样 ， 通 过 一 个 进程 到 另 一 个 进程 的 快速 切换 ， 达 到 表面 上 看 来 
多 个 进程 同时 执行 的 神奇 效果 。 进 程 切 换 本 身 已 在 第 三 章 中 讨论 过 ,本 章 讨论 进程 调度 
(schednling) ， 主 要 关心 什么 时 候 进行 进程 切换 及 选择 哪 一 个 进程 来 运行 。 


本 章 由 三 部 分 组 成 。 调 度 策略 ”一 节 从 理论 上 介绍 Linux 进 行进 程 调度 所 做 的 选择 。 调 
度 算法 ”一 布 讨论 实现 调度 所 采用 的 数据 结构 和 相应 的 算法 。 最 后 ,，“ 与 调度 相关 的 系 
统 调 用 ”一 节 描 述 了 影响 进程 调度 的 系统 调用 。 


为 了 叙述 起 来 更 简单 ,我 们 仍 以 80x86 体 系 结构 为 例 ， 尤其 是 , 我 们 假定 系统 采用 统一 
内 存 访 问 (Uniform Memory Access) 模型 ， 而 且 系 统 时 钟 设 定 为 1ms。 


贡 度 策略 


传统 Unix 操作 系统 的 调度 算法 必须 实现 几 个 互相 冲突 的 目标 : 进程 响应 时 间 尽 可 能 快 ， 
后 台 作 业 的 吞吐 量 尽 可 能 高 , 尽 可 能 避免 进程 的 饥饿 现象 , 低 优先 级 和 高 优先 级 进程 的 
需要 尽 可 能 调和 等 等 .决定 什么 时 候 以 怎样 的 方式 选择 一 个 新 进程 运行 的 这 组 规则 就 是 
所 谓 的 调度 策略 (scheduling policy) 。 


Linux 的 调度 基于 分 时 (time sharing) 技术 : 多 个 进程 以 “时 间 多 路 复 用 ”方式 运行 ， 
因为 CPU 的 时 间 被 分 成 “ 片 (slice)”, 给 每 个 可 运行 进程 分 配 一 片 ( 注 1)。 当 然 , 单 处 


Pe 


注 1: 调度 算法 不 会 选择 已 被 停止 和 挂 起 的 进程 在 CPU 上 运行 。 
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理 器 在 任何 给 定 的 时 刻 只 能 运行 一 个 进程 。 如 果 当 前 运行 进程 的 时 间 片 或 时 限 
(guantum) 到 期 时 ,该 进程 还 没有 运行 完毕 ,进程 切换 就 可 以 发 生 。 分 时 依赖 于 定时 中 
断 ， 因 此 对 进程 是 透明 的 。 不 需要 在 程序 中 插入 额外 的 代码 来 保证 CPU 分 时 。 


调度 策略 也 是 根据 进程 的 优先 级 对 它们 进行 分 类 。 有 时 用 复杂 的 算法 求 出 进程 当前 的 优 
先 级 , 但 最 后 的 结果 是 相同 的 : 每 个 进程 都 与 一 个 值 相 关联 , 这 个 值 表示 把 进程 如 何 适 
当地 分 配给 CPU 。 


在 Linux 中 ， 进 程 的 优先 级 是 动态 的 。 调 度 程 序 跟踪 进程 正在 做 什么 ， 并 周期 性 地 调整 
它们 的 优先 级 。 在 这 种 方式 下 , 在 较 长 的 时 间 间 隔 内 设 有 使 用 CPU 的 进程 , 通过 动态 地 
增加 它们 的 优先 级 来 提升 它们 。 相 应 地 , 对 于 已 经 在 CPU 上 运行 了 较 长 时 间 的 进程 , 通 
过 减少 它们 的 优先 级 来 处 罚 它 们 。 


当 谈 及 有 关 调 度 的 问题 时 , 传统 上 把 进程 分 类 为 “VO 受 限 (WO-bound)” 或 “CPU 受 限 (CPU- 
bound)”"。 前 者 频繁 地 使 用 WO 设备 , 并 花费 很 多 时 间 等 待 UO 操 作 的 完成 ; 而 后 者 则 需要 大 量 
CPU 时 间 的 数值 计算 应 用 程序 。 


另 一 种 分 类 法 把 进程 区 分 为 三 类 ， 


充 互 武进 竹 (interactive process) 
这 些 进 程 经 常 与 用 户 进行 交互 ， 因 此 , 要 花 很 多 时 间 等 待 键盘 和 鼠标 操作 。 当 接受 
了 输入 后 ， 进 程 必须 被 很 快 唤醒 ， 否 则 用 户 将 发 现 系统 反应 迟钝 。 典 型 的 情况 是 ， 
平均 延迟 必须 在 50 一 150ms 之 间 。 这 样 的 延迟 变化 也 必须 进行 限制 , 否则 用 户 将 发 
现 系 统 是 不 稳定 的 ,典型 的 交互 式 程序 是 命令 shell .文本 编辑 程序 及 图 形 应 用 程序 。 


共处 青 进 下 (batch process) 
这 些 进程 不 必 与 用 户 交 互 , 因此 经 常 在 后 台 运 行 。 因为 这 样 的 进程 不 必 被 很 快 地 响 
应 ， 因 此 常 受到 调度 程序 的 慢 待 。 典 型 的 批 处 理 进 程 是 程序 设计 语言 的 编译 程序 、 
数据 库 搜 索引 擎 及 科学 计算 。 

眉 肝 进 息 (real-ibme process) 
这 些 进 程 有 很 强 的 调度 需要 。 这 样 的 进程 决 不 会 被 低 优先 级 的 进程 阻塞 , 它们 应 该 
有 一 个 短 的 响应 时 间 , 更 重要 的 是 , 响应 时 间 的 变化 应 该 很 小 。 典型 的 实时 程序 有 
视频 和 音频 应 用 程序 、 机 器 人 控制 程序 及 从 物理 传感器 上 收集 数据 的 程序 。 


我 们 刚刚 提 到 的 两 种 分 类 法 在 一 定 程度 上 相互 独立 。 例如 , 一 个 批 处 理 进程 可 能 是 WO 受 
限 型 的 (如 数据 库 服务 器 )， 或 是 CPU 受 限 型 的 (如 图 像 绘制 程序 )。 在 Linux 中 ,调度 
算法 可 以 明确 地 确认 所 有 实时 程序 的 身份 ， 但 没有 办 法 区 分 交互 式 程序 和 批 处 理 程 序 。 
Linux 2.6 调 度 程序 实现 了 基于 进程 过 去 行为 的 启发 式 算 法 , 以 确定 进程 应 该 被 当 作 交 互 
式 进 程 还 是 批 处 理 进程 。 当 然 , 与 批 处 理 进 程 相 比 , 调度 程序 有 偏爱 交互 式 进程 的 倾向 。 
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程序 员 可 以 通过 表 7-1 所 列 的 系统 调用 改变 调度 优先 级 。 更 详细 的 内 容 将 在 “与 调度 相 
关 的 系统 调用 ”一 节 中 给 出 。 


表 7-1: 与 调度 相关 的 系统 调用 


系统 调用 说 明 

nice1) 改变 一 个 普通 进程 的 静态 优先 级 
getpriority!) 获得 一 组 普通 进程 的 最 大 静态 优先 级 
setpriority 1() 设置 一 组 普通 进程 的 静态 优先 级 
sched_ getschedulerl) 获得 一 个 进程 的 调度 策略 
sched_setscheduler () 设置 一 个 进程 的 调度 策略 和 实时 优先 级 
scheq_getparam1) 获得 一 个 进程 的 实时 优先 级 
sched_setparam!) 设置 一 个 进程 的 实时 优先 级 

scheaQ yield!) 自愿 放弃 处 理 器 而 不 阻塞 


sched_get_ priority_mint) 获得 一 种 策略 的 最 小 实时 优先 级 
sched get_ priority max{} 获得 一 种 策略 的 最 大 实时 优先 级 


sched rr_ get_intervall() 获得 时 间 片 轮转 策略 的 时 间 片 值 

sched_setatftinitvyt) 设置 进程 的 CPU 亲和力 掩 码 

sched_getaffinity () 获得 进程 的 CPU 亲和力 掩 码 
进程 的 抢占 


如 第 一 章 所 述 ，Linux 的 进程 是 抢占 式 的 。 如 果 进 程 进 入 TASK_RUNNING 状态 ,内核 检查 
它 的 动态 优先 级 是 否 大 于 当前 正 运 行进 程 的 优先 级 。 如 果 是 ，current 的 执行 被 中 断 ， 并 
调用 调度 程序 选择 另 一 个 进程 运行 (通常 是 刚刚 变 为 可 运行 的 进程 )。 当然 , 进程 在 它 的 时 
间 卢 到 期 时 也 可 以 被 抢占 。 此 时 ， 当 前 进程 thread_info 结 构 中 的 TIF_NEED_RESCHED 
标志 被 设置 ， 以 便 时 钟 中 断 处 理 程 序 终止 时 调度 程序 被 调用 。 


例如 ， 让 我 们 考虑 一 种 情况 ， 在 这 种 情况 中 ， 只 有 两 个 程序 一 一 一 个 文本 编辑 程序 和 
-个 编译 程序 一 一 正在 执行 。 文 本 编辑 程序 是 一 个 交互 式 程序 ， 因 此 它 的 动态 优先 级 
高 于 编译 程序 。 不 过 ,因为 编辑 程序 交替 于 用 户 暂 停 思 考 与 数据 输入 之 间 ， 因 此 它 经 常 
被 挂 起 ， 此 外 ， 两 次 击 键 之 间 的 平均 延迟 相对 较 长 。 然而， 只 要 用 户 一 按键 ,中断 就 发 
生 , 内 核 晚 醒 文 本 编辑 进程 。 内核 也 确定 编辑 进程 的 动态 优先 级 确实 高 于 current 的 优 
先 级 (当前 正 运行 的 进程 ， 即 编译 进程 )， 因此， 编辑 进程 的 TIF_NEED_RESCHED 标 志 
被 设置 ,如 此 来 强迫 内 核 处 理 完 中 断 时 溅 活 调度 程序 。 调度 程序 选择 编辑 进程 并 执行 进 
程 切换 ! 结果 ,编辑 进程 很 快 恢复 执行 ,并 把 用 户 键入 的 字符 回 显 在 屏幕 上 。 当 处 理 完 
字符 上 时， 文本 编辑 进程 自己 挂 起 等 待 下 一 次 击 键 ， 编 译 进程 恢复 执行 。 
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和 注意， 被 抢占 的 进程 并 设 有 被 挂 起 ,因为 它 还 处 于 TASK_RUNNING 状态 ， 只 不 过 不 再 
使 用 CPU。 此 外 ， 记 住 Linux 2.6 内 核 是 抢占 式 的 ,这 意味 着 进程 无 论 是 处 于 内 核 态 还 
是 用 户 志 ， 都 可 能 被 抢占 ， 我 们 曾 在 第 五 章 的 “内 核 抢 占 ” 一 节 深 入 讨论 过 这 个 特征 。 


一 个 时 间 片 必须 持续 多 长 ? 
时 间 片 的 长 短 对 系统 性 能 是 很 关键 的 ， 它 既 不 能 太 长 也 不 能 太 短 。 


如 果 平 均 时 间 片 太 短 ， 由 进程 切换 引起 的 系统 额外 开销 就 变 得 非常 高 。 例 如 , 假定 进程 
切换 需要 5ms, 如果 时 间 片 也 设置 为 Sms, 那么 CPU 至 少 把 50 旬 的 时 间 花 费 在 进程 切换 
上 {( 注 2)， 


如 果 平均 时 间 片 太 长 ,进程 看 起 来 就 不 再 是 并 发 执行 。 例 如 ,让 我 们 假定 把 时 间 片 设置 
为 5s， 那 么 ， 每 个 可 运行 进程 运行 大 约 5s， 但 是 暂停 的 时 间 更 长 (一般 是 5s 乘 以 可 运 
行进 程 的 个 数 ) 。 


通常 认为 长 的 时 间 片 会 降低 交互 式 应 用 程序 的 响应 时 间 , 但 这 往往 是 错误 的 。 正如 本 章 
前 面 “ 进 程 的 抢占 ”一 节 中 所 描述 的 那样 ,交互 式 进程 相对 有 较 高 的 优先 级 ， 因 此 , 不 
管 时 间 片 是 多 长 ， 它 们 都 会 很 快 地 抢占 批 处 理 进程 。 


然而 在 一 些 情况 下 ， 一 个 太 长 的 时 间 片 会 降低 系统 的 响应 能 力 。 例 如 , 假定 两 个 用 户 在 
各 自 的 shell 提示 符 下 并 发 输入 两 条 命令 ， 其 中 一 条 启动 一 个 CPU 受 限 型 的 进程 ， 而 另 
一 条 启动 一 个 奕 互 式 应 用 。 两 个 shell 都 创建 一 个 新 进程 , 并 把 用 户 命令 的 执行 委托 给 新 
进程 。 此 外 ， 又 假定 这 样 的 新 进程 最 初 有 相同 的 优先 级 (Linux 预先 并 不 知道 执行 进程 
是 批 处 理 的 还 是 交互 式 的 )。 现在， 如果 调度 程序 选择 CPU 受 限 型 的 进程 执行 ， 则 另 一 
个 进程 开始 执行 前 就 可 能 要 等 待 一 个 时 间 片 。 因 此 ,如 果 这 样 的 时 间 片 较 长 ,那么 看 起 
来 系统 就 可 能 对 用 户 的 请 求 反 应 迟钝 。 


对 时 间 片 大 小 的 选择 始终 是 一 种 折 吏 。Linux 采 取 单 凭 经 验 的 方法 , 即 选 择 尽 可 能 长 . 同 
时 能 保持 良好 响应 时 间 的 一 个 时 间 片 。 


调度 算法 

早期 Linux 版 本 中 的 调度 算法 非常 简单 易 懂 ; 在 每 次 进程 切换 上 时， 内 核 扫 描 可 运行 进程 

的 链表 ， 计 算 进 程 的 优先 级 ， 然 后 选择 “最 佳 ”进程 来 运行 。 这 个 算法 的 主要 缺点 是 选 

注 2; 实际 上 . 情况 可 能 更 糟 样 , 例如, 如 果 在 进程 的 时 间 片 中 还 要 计算 进程 切 接 所 需 的 时 间 ， 
那么 所 有 的 CPU 时 间 都 会 花 涡 在 进程 加 摸 上， 就 没有 进程 能 执行 完 。 
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择 “最 佳 进程 所 要 消耗 的 时 间 与 可 运行 的 进程 数量 相关 , 因此 , 这 个 算法 的 开销 太 大 ， 
在 运行 数 千 个 进程 的 高 端 系统 中 要 消耗 太 多 的 时 间 。 


Linux 2.6 的 调度 算法 就 复杂 多 了 。 通 过 设计 ， 该 算法 较 好 地 解决 了 与 可 运行 进程 数量 
的 比例 关系 ， 因 为 它 在 固定 的 时 间 内 (与 可 运行 的 进程 数量 无 关 ) 选中 要 运行 的 进程 。 
它 也 很 好 地 处 理 了 与 处 理 器 数量 的 比例 关系 ,因为 每 个 CPU 都 拥有 自己 的 可 运行 进程 队 
列 。 而且， 新 算法 较 好 地 解决 了 区 分 交互 式 进 程 和 批 处 理 进 程 的 问题 。 因 此 , 在 高 负载 
的 系统 中 ， 用 户 感到 在 Linux2.6 中 交互 应 用 的 响应 速度 比 早期 的 Linux 版 本 要 快 。 


调度 程序 总 能 成 功 地 找到 要 执行 的 进程 。 事 实 上 ， 总 是 至 少 有 一 个 可 运行 进程 ， 即 
swapper 进程, 它 的 PID 等 于 0, 而 且 它 只 有 在 CPU 不 能 执行 其 他 进程 时 才 执 行 。 就 像 在 
第 三 章 中 提 到 的 , 每 个 多 处 理 器 系统 的 CPU 都 有 它 自己 的 swapper 进 程 , 其 PID 等 于 0。 


每 个 Linux 进程 总 是 按照 下 面 的 调度 类 型 被 调度 : 


SCHED_FIFO 
先进 先 出 的 实时 进程 。 当 调度 程序 把 CPU 分 配给 进程 的 时 候 ， 它 把 该 进程 描述 符 
保留 在 运行 队列 链表 的 当前 位 置 。 如果 设 有 其 他 可 运行 的 更 高 优先 级 实时 进程 , 进 
程 就 继续 使 用 CPU , 想 用 多 入 就 用 多 久 , 即 使 还 有 其 他 具有 相同 优先 级 的 实时 进程 
处 于 可 运行 状态 。 

SCHED_RR 
时 间 片 轮转 的 实时 进程 。 当 调度 程序 把 CPU 分 配给 进程 的 时 候 ， 它 把 该 进程 的 描 
述 符 放 在 运行 队列 链表 的 末尾 。 这 种 策略 保证 对 所 有 具有 相同 优先 级 的 SCHED_RR 
实时 进程 公平 地 分 配 CPU 时 间 。 

SCHED_NORMAL 
普通 的 分 时 进程 。 


调度 算法 根据 进程 是 普通 进程 还 是 实时 进程 而 有 很 大 不 同 。 


普通 进程 的 调度 

每 个 普通 进程 都 有 它 自己 的 静态 优先 级 ,调度 程序 使 用 静态 优先 级 来 估价 系统 中 这 个 进 
程 与 其 他 普通 进程 之 间 调度 的 程度 。 内 核 用 从 100 (最 高 优先 级 ) 到 139 (最 低 优先 级 ) 
的 数 表示 普通 进程 的 静态 优先 级 。 注 意 ， 值 越 大 静态 优先 级 越 低 。 


新 进程 总 是 继承 其 父 进程 的 静态 优先 级 。 不 过 ,通过 把 某 些 “nice 值 ”传递 给 系统 调用 


nice() 和 setpriority{() (参见 本 章 稍 后 “与 调度 相关 的 系统 调用 ”一 节 )， 用 户 可 以 
改变 自己 拥有 的 进程 的 静态 优先 级 。 


进程 调度 国 263 


基本 时 间 片 
静态 优先 级 本 质 上 决定 了 进程 的 基本 时 间 上 月, 即 进程 用 完了 以 前 的 时 间 片 时 , 系统 分 配 
给 进程 的 时 间 片 长 度 。 静 态 优 先 级 和 基本 时 间 片 的 关系 用 下 列 公 式 确 定 : 


基本 时 间 片 _「 (140- 静态 优先 级 ) x 20 共 静 坊 优 先 级 < 120 
(单位 为 ms) (140- 静态 优先 级 ) x 5 若 静 态 优 先 级 三 120 (1) 


如 你 所 见 ， 静 态 优 先 级 越 高 ( 共 值 越 小 )， 基 本 时 间 片 就 越 长 。 其 结果 是 ， 与 优先 级 低 
的 进程 相 比 ,通常 优先 级 较 高 的 进程 获得 更 长 的 CPU 时 间 片 。 表 7-2 说 明了 相对 于 拥有 
最 高 静态 优先 级 、 拥 有 默认 静态 优先 级 和 拥有 最 低 静 态 优先 级 的 普通 进程 ,其 静态 优先 
级 、 基 本 时 间 片 和 对 应 的 nice 值 ( 表 中 还 列 出 了 交互 式 的 5 值 和 了 睡眠 时 间 的 极限 值 ， 在 
本 章 稍 后 给 予 说 明 )。 


表 7-2: 普通 进程 优先 级 的 典型 什 


睡眠 时 间 
说 明 静态 优先 级 ”nice 值 基本 时 间 片 ”交互 式 的 6 值 ”的 极限 值 
最 高 静态 优先 级 100 -20 800ms -3 299ms 
高 静态 优先 级 110 -10 600ms -1 499ms 
缺 省 静态 优先 级 120 0 100ms +2 7T99ms 
低 静 坟 优 先 级 130 +10 SOms +4 999ms 
最 低 静态 优先 级 。 139 +19 5ms +6 1199ms 


动态 优先 级 和 平均 睡眠 时 间 

普通 进程 除了 静态 优先 级 ， 还 有 动态 优先 级 ， 其 值 的 范围 是 100 (最 高 优先 级 ) 一 139 
(最 低 优 先 级 ) 。 动 态 优先 级 是 调度 程序 在 选择 新 进程 来 运行 的 时 候 使 用 的 数 。 它 与 静态 
优先 级 的 关系 用 下 面 的 经 验 公式 表示 。 


动态 优先 级 = max (100, min (静态 优先 级 - honus + 5, 139) ) (2) 


bonus 是 范围 从 0~10 的 值 , 值 小 于 5 表示 降低 动态 优先 级 以 示 惩 罚 , 值 大 于 5 表示 增加 
动态 优先 级 以 示 奖 赏 。bonus 的 值 依赖 于 进程 过 去 的 情况 ， 说 得 更 准确 一 些 ， 是 与 进程 
的 平均 睡眠 时 间 相 关 。 


粗略 地 讲 , 平均 睡眠 时 间 是 进程 在 睡眠 状态 所 消耗 的 平均 纳 秒 数 。 注意 , 这 绝对 不 是 对 过 去 
时 间 的 求 平均 值 的 操作 ,例如 , 在 TASK_INTERRUPTIBLE 状 杰 与 在 TASK_UNINTERRUPTIBLE 
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状态 所 计算 出 的 平均 睡眠 时 间 是 不 同 的 。 而且 , 进程 在 运行 的 过 程 中 平均 睡眠 时 间 递 减 。 
最 后 ， 平 均 睡 眠 时 间 永 远 不 会 大 于 1s。 


表 7-3 说 明了 平均 睡眠 时 间 和 bonus 值 的 关系 。( 表 中 还 列 出 了 相应 的 时 间 片 粒度 , 这 将 
在 稍 后 讨论 。) 


表 7-3; 平均 荐 虐 时 间 、bonus 值 以 及 时 间 片 粒度 


平均 睡眠 时 间 bonus 粒度 
大 于 或 等 于 0 小 于 100ms 0 5120 
大 于 或 等 于 100ms 小 于 200ms 2560 
大 于 或 等 于 200ms 小 于 300ms 2 1280 
大 于 或 等 于 300ms 小 于 400ms 3 640 
大 于 或 等 于 400ms 小 于 S00ms. 4 320 
大 于 或 等 于 500ms 小 于 600ms 5 160 
大 于 或 等 于 600ms 小 于 700ms 6 80 
大 于 或 等 于 700ms 小 于 800ms 7 40 
大 于 或 等 于 800ms 小 于 900ms 8 20 
大 于 或 等 于 900ms 小 于 1000ms 9 10 
1s 10 10 
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平均 睡 卢 时 间 也 被 调度 程序 用 来 确定 一 个 给 定 进程 是 交互 式 进程 还 是 批 处 理 进 程 。 更 明 
确 地 说 ， 如 果 一 个 进程 满足 下 面 的 公式 ， 就 被 看 作 是 交互 式 进 程 : 


动态 优先 级 三 3 x 静态 优先 级 /4+28 (3) 
它 相 当 于 下 面 的 公式 ， 


bonus-5 三 静态 优先 级 /4-28 


表达 式 : 静态 优先 级 /4-28 被 称 为 交互 式 的 6， 交互 式 5 的 一 些 典 型 值 在 表 7-2 中 列 出 。 
应 该 注意 , 高 优先 级 进程 比 低 优先 级 进程 更 容易 成 为 交互 式 进 程 。 例如, 具有 最 高 静态 
优先 级 (100) 的 进程 ， 当 它 的 bonus 值 超过 2， 即 睡眠 时 间 超 过 200ms 时 ， 就 被 看 作 是 
交互 式 进 程 。 相 反 ， 具 有 最 低 静 态 优先 级 (139) 的 进程 决 不 会 被 当 作 交互 式 进程 ， 因 
为 bonus 值 总 是 小 于 11， 相 应 地 需要 交互 式 5 等 于 6。 一 个 具有 缺 省 静态 优先 级 〈120 ) 
的 进程 ， 一 但 其 平均 睡眠 时 间 超 过 700ms ， 就 成 为 交互 式 进 程 。 
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活动 和 过 期 进程 
即使 具有 较 高 静态 优先 级 的 普通 进程 获得 了 较 大 的 CPU 时 间 片 ,也 不 应 该 使 静态 优先 级 
较 低 的 进程 无 法 运行 。 为 了 避免 进程 饥饿 ， 当 一 个 进程 用 完 它 的 时 间 厂 时 ， 它 应 该 被 还 
没有 用 完 时 间 片 的 低 优先 级 进程 取代 。 为 了 实现 这 种 机 制 , 调度 程序 维持 两 个 不 相交 的 
可 运行 进程 的 集合 。 
末 动 进 往 

这 些 进程 还 没有 用 完 它 们 的 时 间 片 ， 因 此 允许 它们 运行 。 
过 期 进 积 

这 些 可 运行 进程 已 经 用 完了 它们 的 时 间 片 , 并 因此 被 禁止 运行 , 直到 所 有 活动 进程 


不 过 ,总 体 的 方案 要 稍微 复杂 一 些 , 因为 调度 程序 试图 提升 交互 式 进程 的 性 能 。 用 完 其 
时 间 片 的 活动 批 处 理 进 程 总 是 变 成 过 期 进程 ,用 完 其 时 间 片 的 交互 式 进程 通常 仍然 是 活 
动 进程 : 调度 程序 重 填 其 时 间 片 并 把 它 留 在 活动 进程 集合 中 。 但 是 ,如果 最 老 的 过 期 进 
程 已 经 等 待 了 很 长 时 间 , 或 者 过 期 进程 比 交 互 式 进程 的 静态 优先 级 高 , 调度 程序 就 把 用 
完 时 间 片 的 交互 式 进 程 移 到 过 期 进程 集合 中 。 结 果 , 活动 进程 集合 最 终 会 变 为 空 , 过 期 
进程 将 有 机 会 运行 。 


实时 进程 的 调度 

每 个 实时 进程 都 与 一 个 实时 优先 级 相关 , 实时 优先 级 是 一 个 范围 从 1 (最 高 优先 级 ) 一 99 
(最 低 优 先 级 ) 的 值 。 调 度 程 序 总 是 让 优先 级 高 的 进程 运行 , 换 旬 话说 ,实时 进程 运行 的 
过 程 中 , 禁止 低 优先 级 进程 的 执行 。 与 普通 进程 相反 , 实时 进程 总 是 被 当成 笑 动 进 程 ( 参 
见 上 一 节 )。 有 用户 可 以 通过 系统 调用 scheq_setparam() 和 sched_setscheduler1() 改 变 
进程 的 实时 优先 级 (参见 本 章 稍 后 “与 调度 相关 的 系统 调用 ”一 节 )。 

如 果 几 个 可 运行 的 实时 进程 具有 相同 的 最 高 优先 级 ,那么 调度 程序 选择 第 一 个 出 现在 与 本 
地 CPU 的 运行 队列 相应 链表 中 的 进程 (参见 第 三 章 "TASK_RUNNING 状 态 的 进程 链表 ”)。 


只 有 在 下 述 事 件 之 一 发 生 时 ， 实 时 进程 才 会 被 男 外 一 个 进程 取代 ， 
*。 “进程 被 另外 一 个 具有 更 高 实时 优先 级 的 实时 进程 抢占 。 


*。 “进程 执行 了 阻塞 操作 并 进入 睡眠 (处 于 TasK_INTERRUPTIBLE 或 TASK_UNINTERRUPTIBLE 
状态 )。 


。 ”进程 停止 (处 于 TASK_STOPPED 或 TASK_TRACED 状 玉 ) 或 被 杀 死 (处 于 EXIT_ZOMBIE 
或 EXIT_DEAD 状 态 )， 
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。 “进程 通过 调用 系统 调用 sched_yield(){ 参 见 本 章 稍 后 的 “与 调度 相关 的 系统 调 
用 ”一 节 ) 自愿 放弃 CPU 。 
*。 “进程 是 基于 时 间 片 轮转 的 实时 进程 (SCHED_RR)， 而 且 用 完了 它 的 时 间 片 。 


当 系 统 调用 nice() 和 setpriority() 用 于 基于 时 间 片 轮转 的 实时 进程 时 ， 不 改变 实时 
进程 的 优先 级 而 会 改变 其 基本 时 间 片 的 长 度 。 实际 上 , 基于 时 间 片 轮转 的 实时 进程 的 基 
本 时 间 片 的 长 度 与 实时 进程 的 优先 级 无 关 , 而 依赖 于 进程 的 静态 优先 级 ,它们 的 关系 见 
前 面 “ 普 通 进 程 的 调度 “一 布 中 的 公式 (1)。 


调度 程序 所 使 用 的 数据 结构 

回忆 第 三 章 “ 标 识 一 个 进程 ”一 节 ， 进 程 链 表 链 接 所 有 的 进程 找 述 符 ， 而 运行 队列 链表 
链接 所 有 的 可 运行 进程 (也 就 是 处 于 TASK_RUNNING 状态 的 进程 ) 的 进程 描述 符 ， 
swapper 进程 (idle 进程 ) 除外 。 


数据 结构 runqueue 

数据 结构 runqueue 是 Linux 2.6 调度 程序 最 重要 的 数据 结构 。 系 统 中 的 每 个 CPU 都 有 
它 自 己 的 运行 队列 ,所 有 的 runqueue 结 构 存 放 在 runqueues 每 CPU 变量 中 (参见 第 五 
章 “每 CPU 变量 ”一 节 ) 。 宏 this_raqf) 产 生 本 地 CPU 运行 队列 的 地 址 , 而 宏 cpu_rqg (n) 
产生 索引 为 n 的 CPU 的 运行 队列 的 地 址 。 


表 7-4 列 出 了 runqueue 数 据 结构 所 包括 的 字段 , 在 下 面 的 章节 中 我 们 将 对 其 中 的 大 部 分 
字段 进行 讨论 。 


表 7-4: runquere 结构 的 字段 


类 型 名 称 说 明 

spinlock_t lock 保护 进程 链表 的 自 旋 饥 

unsignea long nr_running 运行 队列 链表 中 可 运行 进程 的 数量 

Unsigned long cpu_load 基于 运行 队列 中 进程 的 平均 数量 的 
CPU 负载 因子 

unsiaqned long nr_switches CPU 执行 进程 切换 的 次 数 

unsioned long nr _ uninterruptible 先前 在 运行 队列 链表 中 而 现在 睡眠 在 


TASK_UNINTERRUPTIBLE 状态 的 
进程 的 数量 (对 所 有 运行 队列 来 说 ， 
只 有 这 些 字段 的 总 数 才 是 有 意义 的 ) 
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表 7-4: runquere 结构 的 字段 ( 续 ) 


类 型 


unsigned long 


unsigned long long 


task t * 
task 七 * 
struct mm struct 去 


prio array_t * 
prio array_t * 
prio array_t [2] 


int 
atomic t 


struct 


sched domain * 


1nt 


int 
task t * 


struct list head 


名 称 


expired timestamp 


timestamp_ last tick 


LULILIL 


idle 


prev_mm 


actiwve 
expireq 
QaLrLrdYs 


best_expired_prio 


nr _ iowait 


sd 


active balance 


Push_cpu 


migration thread 


migration_ queue 
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说 明 

过 期 队列 中 最 老 的 进程 被 插入 队列 
的 时 间 

最 近 一 次 定时 器 中 断 的 时 间 恰 的 值 
当前 正在 运行 进程 的 进程 描述 符 指针 
(对 本 地 CPU， 它 与 current 相同 ) 
当前 CPU {this CPU) 上 swapper 进 
程 的 进程 描述 符 指针 

在 进程 切换 期 间 用 来 存放 被 替换 进程 
的 内 存 描述 符 的 地 址 

指向 活动 进程 链表 的 指针 

指向 过 期 进程 链表 的 指针 

活动 进程 和 过 期 进程 的 两 个 集合 
过 期 进程 中 静态 优先 级 最 高 的 进程 
( 权 值 最 小 ) 

先前 在 运行 队列 的 链表 中 而 现在 正 等 
待 磁盘 1/O 操作 结束 的 进程 的 数量 
指向 当前 CPU 的 基本 调度 域 ( 见 本 
章 稍 后 “调度 域 ” 一 节 ) 

如 果 要 把 一 些 进程 从 本 地 运行 队列 迁 
移 到 另外 的 运行 队列 (平衡 运行 队 
列 )， 就 设置 这 个 标志 

未 使 用 

迁移 内 核 线程 的 进程 描述 符 指针 
从 运行 队列 中 被 删除 的 进程 的 链表 


runqueue 数 据 结构 中 最 重要 的 字段 是 与 可 运行 进程 的 链表 相关 的 字段 .系统 中 的 每 个 可 
运行 进程 属于 且 只 属于 一 个 运行 队列 。 只 要 可 运行 进程 保持 在 同一 个 运行 队列 中 , 它 就 
只 可 能 在 拥有 该 运行 队列 的 CPU 上 执行 。 但 是 , 正如 我 们 将 要 看 到 的 , 可 运行 进程 会 从 
-个 运行 队列 迁移 到 另 一 个 运行 队列 。 


运行 队列 的 arrays 字 段 是 一 个 包含 两 个 prio_array_t 结 构 的 数组 。 每 个 数据 结构 都 表 
示 一 个 可 运行 进程 的 集合 , 并 包括 140 个 双向 链表 头 (每 个 链表 对 应 一 个 可 能 的 进程 优 
先 级 )、 一 个 优先 级 位 图 和 一 个 集合 中 所 包含 的 进程 数量 的 计数 器 (参见 第 三 章 的 表 
3-2)。 
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如 图 7-1 所 示 ，runqueue 结 构 的 active 字 7 段 指向 arrays 中 两 个 prio_array_t 上 数据 结 
构 之 一 : 对 应 于 包含 活动 进程 的 可 运行 进程 的 集合 。 相 反 ，expired 字 段 指向 数组 中 的 
男 一 个 prio_array_t 数据 结构 ， 对 应 于 包含 过 期 进程 的 可 运行 进程 的 集合 。 


优先 级 0 


优先 级 139 





图 7-1: runqueue 结构 和 可 运行 进程 的 两 个 集合 


ayyays 中 两 个 数据 结构 的 作用 会 发 生 周 期 性 的 变化 : 活动 进程 突然 变 成 过 期 进程 , 而 过 
期 进程 变 为 活动 进程 ， 调 度 程序 简单 地 交换 运行 队列 的 active 和 expired 和 字段 的 内 容 
以 完成 这 种 变化 。 


进程 描述 符 

每 个 进程 描述 符 都 包括 几 个 与 调度 相关 的 字段 ， 如 表 7-5 所 示 。 

表 7-5: 与 调度 程序 相关 的 进程 描述 符 字段 

类 型 名 称 说 明 

unsigned long thread info->flags ”存放 TIF_NEED_RESCHED 标 志 ， 如 果 


必须 调用 调度 程序 ， 则 设置 该 标志 ( 见 
第 四 章 “ 从 中 断 和 异常 返回 ”一 节 ) 


unsigned int thread_info->cpu 可 运行 进程 所 在 运行 队列 的 CPU 逻辑 号 

unsigned long state ， 进程 的 当前 状态 ( 见 第 三 章 “ 进 程 状态 ” 
= 

int prio 进程 的 动态 优先 级 

int static_ prio 进程 的 静 志 优先 级 

struct list_head run_list 指向 进程 所 属 的 运行 队列 链表 中 的 下 一 


个 和 前 一 个 元 素 
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表 7-5: 与 调度 程序 相关 的 进程 描述 符 字段 ( 续 ) 


类 型 名 称 说 明 

prio_array_t* array 指向 包含 进程 的 运行 队列 的 集合 
prio_array_t 

unsigned long sleep_avg 进程 的 平均 睡眠 时 间 

unsigned long long timestamp 进程 最 近 插 入 运行 队列 的 时 间 ， 或 涉及 
本 进程 的 最 近 一 次 进程 切换 的 时 间 

unsigned long long last_ran 最 近 一 次 替换 本 进程 的 进程 切换 时 间 

int activated 进程 被 唤醒 时 所 使 用 的 条 件 代 码 

unsigned long policy 进程 的 调 庶 类 型 (SCHED_NORMRAL 、 
SCHED_RR 或 SCHED_FIFO) 

cpumask_t cpus_allowed 能 执行 进程 的 CPU 的 位 撞 码 

unsigned int time_slice 在 进程 的 时 间 片 中 还 剩余 的 时 钟 节拍 数 

unsigned int first_ time slice 如 果 进 程 肯 定 不 会 用 完 其 时 间 片 ， 就 把 
该 标志 设置 为 1 

unsigned long rt_priority 进程 的 实时 优先 级 


当 新 进程 被 创建 的 时 候 ， 由 copy_process1() 调 用 的 国 数 schedq_fork() 用 下 述 方法 设 
置 current 进程 ( 父 进 程 ) 和 Pp 进程 { 子 进程 ) 的 time_slice 字 段 : 


p->time_slice = (current->time_slice + 1) »» 1: 
CUrrent->time slice >»»>= |; 


换 句 话说 ， 父 进程 剩余 的 节拍 数 被 划分 成 两 等 份 : 一 份 给 父 进 程 ， 另 一 份 给 子 进程 。 这 
样 做 是 为 了 避免 用 户 通过 下 述 方法 获得 无 限 的 CPU 时 间 : 父 进程 创建 一 个 运行 相同 代码 
的 子 进程 ,并 随后 杀 死 自己 , 通过 适当 地 调节 创建 的 速度 , 子 进程 就 可 以 总 是 在 父 进 程 
过 期 之 前 获得 新 的 时 间 片 。 因 为 内 核 不 奖赏 创建 , 所 以 这 种 编程 技巧 不 起 作用 。 类 似 地 ， 
用 户 不 能 通过 在 shell 中 运行 几 个 后 台 进 程 ,或 通过 在 图 形 桌 面 打 开 许 多 窗口 来 不 公平 地 
霸占 处 理 器 。 更 通俗 地 讲 就 是 , 一 个 进程 不 能 通过 创建 多 个 后 代 来 霸占 资源 (除非 它 有 
给 自己 实时 策略 的 特权 )。 


如 果 父 进程 的 时 间 片 只 剩 下 一 个 时 钟 节拍 , 则 划分 操作 强行 把 current->time_slice 置 
为 0, 从 而 耗 尽 父 进程 的 时 间 片 。 这 种 情况 下 , copy_process1() 把 current->time_slice 
重新 置 为 1， 然后 调用 scheduler_tick |) 递 减 读 字段 ( 见 下 一 节 )。 


国 数 copy_process () 也 初始 化 子 进程 描述 符 中 与 进程 调度 相关 的 几 个 字段 : 
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Pp->first time_slice = 1; 
Pp->timestamp = sched clock!):; 


因为 子 进程 没有 用 完 它 的 时 间 片 (如 果 一 个 进程 在 它 的 第 一 个 时 间 片 内 终止 或 执行 新 的 程 
序 ， 就 把 子 进程 的 剩余 时 间 奖 励 给 父 进程 )， 所 以 first_time_slice 标 志 被 置 为 1。 用 国 
数 sche3_clock[() 所 产生 的 时 间 翼 的 值 初始 化 timestamp 字段 : 实际 上 ， 国 数 
sched_clock() 返 回 被 转化 成 纳 秒 的 64 位 寄存 器 TSC[ 见 第 六 章 “ 时 间 惟 计数 器 (TSC) 
一 节 ] 的 内 容 。 


调度 程序 所 使 用 的 函数 
调度 程序 依靠 几 个 函数 来 完成 调度 工作 . 其 中 最 重要 的 国 数 是 : 
scheduler_tickt) 

维持 当前 最 新 的 time_slice 计 数 器 。 
try_to wake_upt{) 

唤醒 睡眠 进程 。 
recalc_task_prio{) 

更 新 进程 的 动态 优先 级 。 
Schedulel( + 

选择 要 被 执行 的 新 进程 。 
load_balancel) 


维持 多 处 理 器 系统 中 运行 队列 的 平衡 。 


scheduler_tick() 函 数 


我 们 已 经 在 第 六 章 “ 更 新 本 地 CPU 统计 数 ” 一 节 中 说 明 : 每 次 时 钟 节拍 到 来 时 ， 
scheduler_tick() 是 如 何 被 调用 以 执行 与 调度 相关 的 操作 的 , 它 执 行 的 主要 步 又 如 下 : 
1. 把 转换 为 纳 秒 的 TSC 的 当前 值 存 入 本 地 运行 队列 的 timestamp_last_tick 字 段 。 
这 个 时 间 蕉 是 从 国 数 sched_clock ()( 见 前 一 节 ) 获得 的 。 
2. 检查 当前 进程 是 否 是 本 地 CPU 的 swapper 进程 ， 如 果 是 ,执行 下 面 的 子 步 又 : 
a 如 果 本 地 运行 队列 除了 swapper 进程 外 ,还 包括 另外 一 个 可 运行 的 进程 ,就 设 
置 当 前 进程 的 TIF_NEED_RESCHED 字 段 , 以 强迫 进行 重新 调度 。 就 像 我 们 在 
本 章 稍 后 “schedule() 函 数 一 节 ”将 要 看 到 的 ， 如 果 内 核 支 持 超 线程 技术 ( 见 
本 章 稍 后 ”多 处 理 器 系统 中 运行 队列 的 平衡 "一 节 ), 那么 , 只 要 一 个 逻辑 CPU 
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运行 队列 中 的 所 有 进程 都 有 比 另 一 个 逻辑 CPU (两 个 逻辑 CPU 对 应 同一 个 物 
理 CPU) 上 已 经 在 执行 的 进程 有 低 得 多 的 优先 级 ， 前 一 个 逻辑 CPU 就 可 能 空 
网， 即使 它 的 运行 队列 中 有 可 运行 的 进程 。 
b. 跳 转 到 第 7 步 ( 没 必要 更 新 swapper 进程 的 时 间 片 计数 器 )。 


3. 检查 current->array 是 否 指 向 本 地 运行 队列 的 活动 链表 。 如 果 不 是 , 说 明 进 程 已 
经 过 期 但 还 没有 被 替换 : 设置 TIF_NEED_RESCHED 标志 ， 以 强制 进行 重新 调度 
并 跳 转 到 第 7 步 。 


4. 获得 this_rq() ->lock 自 旋 锁 。 


5. 递减 当前 进程 的 时 间 片 计数 器 , 并 检查 是 否 已 经 用 完 时 间 片 。 由 于 进程 的 调度 类 型 
不 同 ， 贸 数 所 执行 的 这 一 步 操 作 也 有 很 大 的 差别 ， 我 们 马上 会 讨论 它们 。 


6. 释放 this_rq()->lock 自 旋 锁 。 


7. 调用 rebalance_tickl() 国 数 ， 该 函数 应 该 保证 不 同 CPU 的 运行 队列 包含 数量 基 
本 相同 的 可 运行 进程 。 稍 后 在 “多 处 理 器 系统 中 运行 队列 的 平衡 ”一 节 我 们 将 讨论 
运行 队列 的 平衡 。 


更 新 实时 进程 的 时 间 片 

如 果 当 前 进程 是 先进 先 出 (FIFO) 的 实时 进程 ， 函 数 scheduler_tick() 什 么 都 不 做 。 
实际 上 在 这 种 情况 下 ，current 所 表示 的 进程 (当前 进程 ) 不 可 能 锌 比 其 优先 级 低 或 其 
优先 级 相等 的 进程 所 抢占 ， 因 此 ， 维 持 当 前 进程 的 最 新 时 间 片 计数 器 是 没有 意义 的 。 


如 果 current 表示 基于 时 间 片 轮转 的 实时 进程 ，schedquler_tick() 就 递减 它 的 时 间 片 
计数 器 并 检查 时 间 片 是 否 被 用 完 : 
if (current->policy == SCHED RR && 1--cuUurrent-stime slice}) { 

Current-stime_slice = task timeslicelcyurrent}):; 

current-»>first _ time_ slice = 0: 

set_ tsk need resched{(lcurrent}); 

list _ del {xcurrent->run_list}: 

list add rail lgcurrent->run_list, 

this_ rgl(l})->active->queue+current-»>prio}); 


} 


如 果 国 数 确 定时 间 片 确实 用 完了 , 就 执行 一 系列 操作 以 达到 抢占 当前 进程 的 目的 , 如 果 
必要 的 话 ， 就 尽快 抢占 。 


第 一 步 操 作 了 包括 调用 task_timeslice() 来 重 填 进程 的 时 间 片 计数 器 。 该 函数 检查 进程 的 
静态 优先 级 , 并 根据 在 前 面 “ 普 通 进 程 的 调度 ”一 节 中 列 出 的 公式 (1) 返回 相应 的 基本 时 
间 片 。 此 外 ，current 的 first_time_slice 字段 被 清 0， 读 标 志 被 fork() 系 统 调用 服务 
例 程 中 的 copy_process{) 设 置 ， 并 在 进程 的 第 一 个 时 间 片 刚 一 用 完 时 立刻 请 0。 
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第 二 步 ，scheduler_tick|) 调 用 油 数 set_tsk_need_resched|() 设 置 进程 的 
TIF_NEED_RESCHED 标 志 。 就 像 第 四 章 “ 从 中 断 和 异常 运 回 ” 一 节 中 所 描述 的 ， 该 标志 
强制 调用 scnedule1() 国 数 ， 以 便 current 指向 的 进程 能 被 另外 一 个 有 相同 优先 级 (或 
更 高 优先 级 ) 的 实时 进程 (如果 有 这 种 进程 的 话 ) 所 取代 。 


scheduler_tick1() 的 最 后 一 步 操作 包括 把 进程 描述 符 移 到 与 当前 进程 优先 级 相应 的 运 

行 队 列 活 动 链表 的 尾部 。 把 current 指向 的 进程 放 到 链表 的 尾部 , 可 以 保证 在 每 个 优先 

级 与 它 相 同 的 可 运行 实时 进程 获得 CPU 时 间 片 以 前 , 它 不 会 再 次 被 选择 来 执行 。 这 是 基 

于 时 间 片 轮转 的 调度 策略 。 进 程 描述 符 的 移动 通过 两 个 步骤 完成 : 先 调 用 1ist_del 1() 

把 进程 从 运行 队列 的 活动 链表 中 删除 ,然后 调用 1ist_add_tail(}; 把 进程 重新 插入 到 同 
-个 活动 链表 的 尾部 。 


更 新 普通 进程 的 时 间 片 
如 果 当 前 进程 是 普通 进程 ， 国 数 scheduler tickft) 执 行 下 列 操作 ; 
1. 递减 时 间 片 计数 器 (current->time_slice)。 
2. 检查 时 间 片 计数 器 。 如 果 了 时间 片 用 完 ， 国 数 执行 下 列 操作 ; 
a. 调用 dequeue_task() 从 可 运行 进程 的 this_rq()->active 集 人 台中 删除 current 指向 
的 进程 。 
b. 调用 set_tsk_need_resched() 设 置 TIF_NEED_RESCHED 标志 。 
c， 更 新 current 指向 的 进程 的 动态 优先 级 : 
cuUurrent->prio = eftfective _ prio{current)}:; 
函数 effective_prio(l}) 读 current 的 static_prio 和 sleep_avg 宇 7 段 ,并 根 
据 在 前 面 “普通 进程 的 调度 ”一 节 中 的 公式 (2) 计算 进程 的 动态 优先 级 。 
d.， 重 填 进 程 的 了 时间 片 ; 


CUrrent->time_slice = task timeslicelcurrent!}.; 
CUrrent->fiirst_time slice = 0; 


e. 如 果 本 地 运行 队列 数据 结构 的 expired_timestamp 字 段 等 于 0( 即 过 期 进程 集 
合 为 空 ) ， 就 把 当前 时 钟 节拍 的 值 赋 给 expired_timestamp: 
if (‘'ithis_rg{()}->expired timestampD) 
this _ rgq(}->explred timestamp = JjJlffies; 
f.， 把 当前 进程 插入 活动 进程 集合 或 过 期 进程 集合 ; 


if {!TASK_INTERACTIVE Icurrent}) || EXPIRED_STARVING (this raq(}}) { 
endqueue_task (current, this rg(})}->expired): 


并 





if (current-»>Sstatic prio < this_ rgq()->best expired prio) 
tnis rgql})->best _ expired_prio = current-»>static prio; 
} BlsSe 
engqueue_ task{tcurrent, this_rgq(l}-»>active):; 


如 果 用 前 面 “ 普 通 进程 的 调度 ”一 节 列 出 的 公式 (3) 识别 出 进程 是 一 个 交互 式 进 
程 , TaASK_INTERACTIVE 宏 就 产生 值 1. 宏 BXPIRED_STaARVING 检查 运行 队列 
中 的 第 一 个 过 期 进程 的 等 待 时 间 是 否 已 经 超过 1000 个 时 钟 节拍 乘 以 运行 队列 中 的 
可 运行 进程 数 加 1， 如 果 是 ， 宏 产生 值 1。 如 果 当 前 进程 的 静态 优先 级 大 于 一 个 过 
期 进程 的 静态 优先 级 ，EXPIRED_STARVING 宏 也 产生 值 1。 


3.。 否则， 如果 时 间 片 没有 用 完 (current->time_slice 不 等 于 0), 检查 当前 进程 的 
剩余 时 间 片 是 否 太 长 ; 


if (TASK_ INTERACTIVE(P) && !((task timeslice(p) - 

pp->time_slice) SG TIMESLICE GRANULARITY {p}) && 
(pp->time_ slice >= TIMESLICE GRANULARITY {IP)}) && 
(p->array == rdQ->active)}) | 

list del I(t&current->run_list):; 

list add taili&gcurrent->run_list, 

this_ rq(})}->active->queuyuercurrent ->prio}:; 
set_tesk_need reschedt{n}): 


+} 


安 TIMESLICE_GRRANULARITY 产 生 两 个 数 的 乘积 给 当前 进程 的 bonus( 见 本 章 前 面 
的 表 7-3) ， 其 中 一 个 数 为 系统 中 CPU 的 数量 ， 另 一 个 为 成 比例 的 常量 。 基 本 上 ， 具 
有 高 静态 优先 级 的 交互 式 进程 ,其 时 间 片 被 分 成 大 小 为 TIMESLICE_GRANULARITY 
的 几 个 片段 ， 以 使 这 些 进程 不 会 独占 CPU 。 


try_to_wake_up() 函 数 

crvy_to_wake_up1) 国 数 通 过 把 进程 状态 设置 为 TASK_RUNNING ,并 把 该 进程 插入 本 地 
CPU 的 运行 队列 来 唤醒 睡眠 或 停止 的 进程 。 例 如 ， 调 用 该 国 数 唤醒 等 待 队列 中 的 进程 
( 见 第 三 章 “ 如 何 组 织 进程 ”一 节 ) 或 恢复 执行 等 待 信号 的 进程 ( 见 第 十 一 章 )。 该 函数 
接受 的 参数 有 : 

。 ”被 唤醒 进程 的 描述 符 指针 (p) 

。 “可 以 被 唤醒 的 进程 状态 掩 码 (state) 

。 ”一 个 标志 (syvnc)， 用 来 禁止 被 唤醒 的 进程 抢占 本 地 CPU 上 正在 运行 的 进程 


该 函数 执行 下 列 操 作 ; 
1. 调用 函数 task_rg_lock() 禁 用 本 地 中 断 , 并 获得 最 后 执行 进程 的 CPU ( 它 可 能 不 
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同 于 本 地 CPU) 所 拥有 的 运行 队列 rq 的 锁 ,CPU 的 逻辑 号 存储 在 p->thread_info- 

>cpu 字段 。 

检查 进程 的 状态 p->state 是 否 属 于 被 当 作 参数 传递 给 函数 的 状态 掩 码 state; 如 果 

不 是 ， 就 跳 转 到 第 9 步 终 止 滩 数 。 

如 果 p->array 字段 不 等 于 NULL， 那 么 进程 已 经 属于 某 个 运行 队列 ， 因 此 跳 转 到 

第 8 步 。 

在 多 处 理 器 系统 中 ,该 函数 检查 要 被 唤醒 的 进程 是 否 应 该 从 最 近 运 行 的 CPU 的 运 

行 队列 迁移 到 另外 一 个 CPU 的 运行 队列 。 实 际 上 ， 国 数 就 是 根据 一 些 启 发 式 规则 

选择 一 个 目标 运行 队列 。 例 如 ; 

。*。 如 果 系 统 中 某 些 CPU 空 亲 ， 就 选择 空 亲 CPU 的 运行 队列 作为 目标 。 按 照 优先 
选择 先前 正在 执行 进程 的 CPU 和 本 地 CPU 这 种 顺序 来 进行 。 

。 ”如 果 先 前 执行 进程 的 CPU 的 工作 量 远 小 于 本 地 CPU 的 工作 量 ， 就 选择 先前 的 
运行 队列 作为 目标 。 

。 ”如 果 进 程 最 近 被 执行 过 , 就 选择 老 的 运行 队列 作为 目标 (可 能 仍然 用 这 个 进程 
的 数据 填充 硬件 高 速 缓存 )。 

* 如 果 把 进程 移 到 本 地 CPU 以 缓解 CPU 之 间 的 不 平衡 ， 目标 就 是 本 地 运行 队列 
( 见 本 章 稍 后 “多 处 理 器 系统 中 运行 队列 的 平衡 ”一 节 )。 

执行 完 这 一 步 ， 函 数 已 经 确定 了 目标 CPU 和 对 应 的 目标 运行 队列 rq， 前 者 将 执行 

被 吃 醒 的 进程 ， 后 者 就 是 进程 插入 的 队列 。 

如 果 进 程 处 于 TASK_UNINTERRUPTIBLE 状态 ,函数 递减 目标 运行 队列 的 

nr_uninterruptible 字段 ,并 把 进程 描述 符 的 p->activated 字 7 段 设置 为 -1。 参 

见 后 面 的 “recalc_task_priof) 国 数 ” 一 节 对 activated 字 段 的 说 明 ， 

调用 activate_task() 国 数 ， 它 依次 执行 下 面 的 子 步骤 : 

a， 调用 sched_clock() 获 取 以 纳 秒 为 单位 的 当前 时 间 惟 。 如 果 目 标 CPU 不 是 本 
地 CPU ， 就 要 补偿 本 地 时 钟 中 断 的 偏差 ， 这 是 通过 使 用 本 地 CPU 和 目标 CPU 
上 最 和 近 一 次 发 生 时 钟 中 断 的 相对 时 间 改 来 达到 的 。 


now = ‘sched cilock!} - this_rg() ->stimstamp_last tick) 
+ rq->timestamp_last_tick; 


b. 调用 recalc_task_prio(), 把 进程 描述 符 的 指针 和 上 一 步 计 算出 的 时 间 戳 传 
递 给 它 。 下 一 节 将 详细 说 明 recalc_task_priol) 国 数 。 

c. 根据 本 章 稍 后 的 表 7-6 设置 b->activatea 字 段 的 值 。 

d. 使 用 在 第 6a 步 中 计算 的 时 间 败 设置 p->timestamp 字 有 段 。 
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e. 把 进程 描述 符 插入 活动 进程 集合 : 

endueue task{(p, rq-»>aActive):; 

rdq->nr_running++; 
如 果 目 标 CPU 不 是 本 地 CPU， 或 者 没有 设置 sync 标志 ， 就 检查 可 运行 的 新 进程 的 
动态 优先 级 是 否 比 rg 运行 队列 中 当前 进程 的 动态 优先 级 高 (p->prio < rg->curr- 
>prio)， 如 果 是 ， 就 调用 resched_task() 抢 占 rq->curr。 在 单 处 理 器 系统 中 ， 后面 
的 函数 只 是 执行 set_tsk_neeqd_resched|() 来 设置 rq->curr 进程 的 
TIF_NEED_RESCHED 标志 。 在 多 处 理 器 系统 中 ，resched_task{) 也 检查 
TIF_NEED_RESCHED 的 旧 值 是 否 为 0、 目 标 CPU 与 本 地 CPU 是 否 不 同 、rgq->curr 进 
程 的 TIF_POLLING_NRFLAG 标 志 是 否 清 0( 目 标 CPU 设 有 轮 询 进程 TIF_NEED_RESCHED 
标志 的 值 )。 如 果 是 ，resched_task{) 调 用 smp_send_reschedule() 产 生 IPI， 并 强 
制 目 标 CPU 重新 调度 (参见 第 4 章 “ 处 理 器 闻 中 断 处 理 一 节 ) 。 


把 进程 的 bp->state 字段 设置 为 TASK_RUNNING 状态 。 
调用 task_rq_unlock() 来 打开 rg 运行 队列 的 锁 并 打开 本 地 中 断 。 
返回 1 (如 果 成 功 唤 醒 进 程 ) 或 0 (如 果 进 程 设 有 被 唤醒 )。 


recalc_task_prio() 函 数 


国 数 recalc_task_prio() 更 新 进程 的 平均 睡 眼 时 间 和 动态 优先 级 。 它 接收 进程 描述 符 
的 指针 pp 和 由 国 数 sched_clock() 计 算出 的 当前 时 间 规 now 作为 参数 。 


该 国 数 执行 下 述 操作 


把 mintnow -p -> timestamp,10) 的 结果 赋 给 局 部 变量 sleep_time 。 


p->timestamp 字段 包含 导致 进程 进入 睡眠 状态 的 进程 切换 的 时 间 礁 ， 因 此 ， 
sleep_time 中 存放 的 是 从 进程 最 后 一 次 执行 开始 ， 进 程 消耗 在 睡眠 状态 的 纳 秒 
数 (如果 进程 睡眠 的 时 间 更 长 ，sleep_time 就 等 于 1s)。 


如 果 sleep_time 不 大 于 0,， 就 不 用 更 新 进程 的 平均 睡眠 时 间 , 直接 跳 转 到 第 8 步 。 


检查 进程 是 否 不 是 内 核 线程 、 进 程 是 否 从 TASK_UNINTERRUPTIBLE 状态 (p 
->activated 字 段 等 于 -1, 见 前 一 节 的 第 5 步 ) 被 唤醒 、 进 程 连续 睡眠 的 时 间 是 否 
超过 给 定 的 睡眠 时 间 极 限 。 如 果 这 三 个 条 件 都 满足 ， 国 数 把 p->sleep_avg 字 段 设 
置 为 相当 于 900 个 时 钟 节拍 的 值 Ra 
间 片 长 度 获 得 的 一 个 经 验 值 ) 。 然 后 ， 跳 转 到 第 8 步 。 


睡眠 时 间 极 限 依赖 于 进程 的 静态 优先 级 , 表 7-2 说 明了 它 的 一 些 典 型 值 。 简 而 言 之 ， 
这 个 经 验 规 则 的 目的 是 保证 已 经 在 不 可 中 断 模式 上 (通常 是 等 待 磁盘 IO 的 操作 ) 
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睡眠 了 很 长 时 间 的 进程 获得 一 个 预先 确定 而 且 足 够 长 的 平均 睡眠 时 间 ,以 使 这 些 进 
程 即 能 尽快 获得 服务 ， 又 不 会 因 睡 眠 时 间 太 长 而 引起 其 他 进程 的 饥饿 。 


4.， 执行 CURRENT_BONUS 宏 计 算 进 程 原来 的 平均 睡眠 时 间 的 bonus 值 ( 见 表 7-3)。 如 
果 (10- ponus) 大 于 0， 国 数 用 这 个 值 与 sleep_time 相 乘 。 因 为 将 要 把 sleep time 
加 到 进程 的 平均 睡眠 时 间 上 ( 见 下 面 的 第 6 步 )， 所 以 当前 平均 睡眠 时 间 越 短 ， 它 
增加 的 就 越 快 。 

5. 如果 进 程 处 于 TaSK_UNINTERRUPTIBLE 状 态 而 且 不 是 内 核 线程 ,执行 下 述 子 步骤 ， 


a. 检查 平均 睡眠 时 间 p->sleep_avg 是 否 大 于 或 等 于 进程 的 睡眠 时 间 极 限 ( 见 本 
章 前 面 的 表 7-2) 。 如 果 是 ， 把 局 部 变量 sleep_time 重 新 置 为 0， 因 此 不 用 调 
整 平均 睡眠 时 间 ， 而 直接 跳 转 到 第 6 步 。 


b， 如 果 sleep_time + p->sleep_avg 和 的 和 大 于 或 等 于 睡眠 时 间 极 限 ， 就 把 
P->sleep_avg 字 段 置 为 睡眠 时 间 极 限 并 把 sleep_cime 设置 为 0。 
通过 对 进程 平均 睡眠 时 间 的 轻微 限制 , 国 数 不 会 对 睡眠 时 间 很 长 的 批 处 理 进 程 给 予 
6. 把 sleep_time 加 到 进程 的 平均 睡眠 时 间 上 (P->sleep_avg)。 


7. 检查 p->sleep_avg 是 否 超过 1000 个 时 钟 节拍 (以 纳 秒 为 单位 )， 如果 是 ， 函数 就 
把 它 减 到 1000 个 时 钟 市 拍 ( 以 纳 秒 为 单位 )。 
8. ”更 新 进程 的 动态 优先 级 ，: 


p->prio = effective priolp):; 


尔 数 effective_prio() 已 经 在 本 章 前 面 “scheduler_tick() 函 数 ” 一 节 讨 论 过 。 


schedule() 函 数 


国 数 schedule () 实现 调 讼 程序 。 它 的 任务 是 从 运行 队列 的 链表 中 找到 一 个 进程 ， 并 随 
后 将 CPU 分 配给 这 个 进程 。schedule{) 可 以 由 几 个 内 核 控 制 路 径 调 用 ， 可 以 采取 直接 
调用 或 延迟 (lazy) 调用 (可 延迟 的 ) 的 方式 。 


直接 调用 


如 有 果 current 进程 因 不 能 获得 必需 的 资源 而 要 立刻 被 阻塞 ， 就 直接 调用 调度 程序 。 在 
这 种 情况 下 ， 要 阻塞 进程 的 内 核 路 径 按 下 述 步骤 执行 : 


1. 把 current 进程 插入 适当 的 等 待 队列 。 
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2， 把 current 进程 的 状态 改 为 TASK_INTERRUPTIBLE 或 TASK_UNINTERRUPTIBLE。 
3。 调用 schedule1) 。 

4. 检查 资源 是 否 可 用 ， 如 果 不 可 用 就 转 到 第 2 步 。 

5. 一 但 资源 可 用 ， 就 从 等 待 队列 中 删除 current 进程 。 

内 核 例 程 反复 检查 进程 需要 的 资源 是 否 可 用 ， 如 里 不 可 用 ， 就 调用 schedulei) 把 CPU 
分 配给 其 他 进程 。 稍 后 , 当 调 度 程序 再 次 允许 把 CPU 分 配给 这 个 进程 时 , 要 重新 检查 资 
源 的 可 用 性 。 这 些 步 又 与 wait_event () 所 执行 的 步骤 很 相似 ， 也 与 第 3 章 “ 如 何 组 织 
进程 ”一 节 中 描述 的 函数 很 相似 。 

许多 执行 长 迭代 任务 的 设备 驱动 程序 也 直接 调用 调度 程序 。 每 次 迭代 循环 时 , 驱动 程序 
都 检查 TIF_NEED_RESCHED 标 志 ， 如 果 需 要 就 调用 schedule{) 自 动 放弃 CPU， 


延迟 调用 

也 可 以 把 current 进程 的 TIF_NEED_RESCHED 标 志 设 置 为 1， 而 以 延迟 方式 调用 调 

度 程 序 。 由 于 总 是 在 恢复 用 户 态 进 程 的 执行 之 前 检查 这 个 标志 的 值 ( 见 第 四 章 从 “中 

断 和 异常 返回 ”一 节 )， 所 以 schedulel() 将 在 不 久之 后 的 某 个 时 间 被 明确 地 调用 。 

以 下 是 延迟 调用 调度 程序 的 典型 例子 ， 

。 “” 当 current 进 程 用 完了 它 的 CPU 时 间 片 时 ,由 schequler tick() 国 数 完成 schedule() 
的 延迟 调用 。 

*  ， 当 一 个 被 唤醒 进程 的 优先 级 比 当 前 进程 的 优先 级 高 时 , 由 try_to_wake_up1() 函 数 
完成 schedule() 的 延迟 调用 。 


。* 当 发 出 系统 调用 sched_setscheduler() 时 ( 见 本 章 稍 后 “与 调度 相关 的 系统 调 
用 ”一 节 )。 


进程 切换 之 前 schedule() 所 执行 的 操作 

schedule1() 国 数 的 任务 之 一 是 用 另外 一 个 进程 来 奉 换 当前 正在 执行 的 进程 。 因 此 ， 该 
函数 的 关键 结果 是 设置 一 个 叫做 next 的 变量 , 使 它 指向 被 选中 的 进程 ,该 进程 将 取代 
current 进 程 。 如果 系 统 中 没有 优先 级 高 于 current 进 程 的 可 运行 进程 ,那么 最 终 next 
与 current 相等 ， 不 发 生 任何 进程 切换 。 


schedule{}) 函 数 在 一 开始 先 禁 用 内 核 抢占 ， 并 初始 化 一 些 局 部 变量 ; 


need_resched: 
preempt_disable!l}.:; 
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Prev = Current:; 

ry = this rgqt{t}; 
正如 你 所 见 ， 把 current 返回 的 指针 赋 给 prev, 并 把 与 本 地 CPU 相对 应 的 运行 队列 数 
据 结 构 的 地 址 赋 给 rq。 


下 一 步 ，schedule () 要 保证 prev 不 占用 大 内 核 销 【参见 第 五 章 “ 大 内 核 锁 ”一 市 )， 


if (prev=->lock_depth >= 0) 
Up (&kKernel_sem):; 


注意 ，schedule() 不 改变 lock_depth 字 段 的 值 ， 当 prev 恢复 执行 的 时 候 ， 如 果 该 字 


段 的 值 不 为 负数 ， 则 prev 重新 获得 kernel_flag 自 旋 锁 。 因 此 ,通过 进程 切换 会 自动 
释放 和 重新 获取 大 内 核 锁 。 


调用 scheq_clock() 国 数 以 读 取 TSC, 并 将 它 的 值 转换 成 纳 秒 , 所 获得 的 时 间 改 存放 在 
局 部 变量 now 中 。 然 后 ，schedule() 计 算 prev 所 用 的 CPU 时 间 片 长 度 ， 

now = Sched_clockt{}:; 

run_time = now - prev->timestamp; 


if (run time > 1000000000) 
run_ time = 1000000000; 


通常 使 用 限制 在 1s (要 转换 成 纳 秒 ) 的 时 间 。run_time 的 值 用 来 限制 进程 对 CPU 的 使 
用 。 不 过 ， 鼓 励 进程 有 较 长 的 平均 睡眠 时 间 : 


run_ time /= (CURRENT BONUSIprev) > : 11); 
记 住 ，CURRENT_BONUS 返回 0~10 之 间 的 值 ， 它 与 进程 的 平均 睡 卢 时 间 是 成 比例 的 。 


在 开始 寻找 可 运行 进程 之 前 ，schedaule() 必 须 鞠 掉 本 地 中 断 ， 并 获得 所 要 保护 的 运行 
队列 的 自 旋 锁 ; 


spin_lock_irg(&rg->lock).; 


正如 在 第 三 章 “ 进 程 终 止 ”一 节 中 所 描述 的 ，prev 可 能 是 一 个 正在 被 终止 的 进程 。 为 
了 确认 这 个 事实 ，schedule() 检 查 PF_DEAD 标志 ，: 


if (prev->flags & PF_DEAD) 
prev->state = EXIT_ DEAL; 


接 下 来 ，schedule() 检 查 prev 的 状态 。 如 果 不 是 可 运行 状态 , 而 且 它 没有 在 内 核 态 被 
抢占 【 见 第 四 章 “ 从 中 断 和 异常 返回 ”一 节 ), 就 应 该 从 运行 队列 删除 prev 进 程 。 不 过 ， 
如 果 它 是 非 阻塞 挂 起 信号 , 而且 状态 为 TASK_INTERRUPTIBLE, 销 数 就 把 该 进程 的 状 
态 设置 为 TASK_RUNNING, 并 将 它 插 入 运行 队列 。 这 个 操作 与 把 处 理 器 分 配给 prev 是 
不 同 的 ， 它 只 是 给 prev 一 次 被 选中 执行 的 机 会 。 


进程 调度 、 z 二 





if (prev->state != TASK_ RUNNING && 
! (preempt_count () & PREEMPT ACTIVE)} { 


if (prev->state == TASK_INTERRUPTIBLE && signal_pending (prev}) 
Brev->state = TASK_RUNNING; 
全 二 全 1 


if Iprev->state == TASK_UNINTERRUPTIBLE) 
rg->nr Uninterruptiblet+t; 
deactivate tasklprev, ra): 


} 


函数 deactivate_task() 从 运行 队列 中 删除 读 进 程 ， 


rg->nr_ruming--} 
dequeue_task {p, Pp->array}; 
p->array = NULL:; 


现在 ，schedule() 检 查 运行 队列 中 剩余 的 可 运行 进程 数 。 如 果 有 可 运行 的 进程 ， 
schedule() 就 调用 dependent_sleeper(}) 函 数 ,， 在 绝 大 多 数 情况 下 ,该 函数 立即 返回 
0。 但 是 , 如 果 内 核 支 持 超 线程 技术 ( 见 本 章 稍 后 “多 处 理 器 系统 中 运行 队列 的 平衡 ”一 
节 )， 函数 检查 要 被 选中 执行 的 进程 ,其 优先 级 是 否 比 已 经 在 相同 物理 CPU 的 某 个 逻辑 
CPU 上 运行 的 兄弟 进程 的 优先 级 低 ， 在 这 种 特殊 的 情况 下 ，schedule() 拒 绝 选择 低 优 
先 级 的 进程 ， 而 去 执行 swapper 进程。 
if (ra->nr_running) 1 
if (dependent_sleeper{smp processor_id(), rg}} { 


next = rg->idle; 
qoto switch tasks; 


} 


如 果 运 行 队列 中 没有 可 运行 的 进程 存在 ， 消 数 就 调用 idle_balance()， 从 另外 一 个 运 
行 队 列 迁 移 一 些 可 运行 进程 到 本 地 运行 队列 中 ,idie_balance() 与 lo0ad_balance() 类 
似 , 在 稍 后 的 “1oeaa_balance() 国 数 ” 一 节 中 将 对 它 进 行 说 明 。 
if {lrgq->nr_running) { 
idle balance (smp_ processor_id(}, rq);) 
if (1{raq=>snr_ running) 1 
nextk = rg->idle; 
rdq->explred timestamp = 0; 
wake_sleeping_dependent (smp_processor_idt{}, rq}; 
if (irgq-snr_running) 
goto switch_tasks; 


lL 
如 果 idle_balance【) 没 有 成 功 地 把 进程 迁移 到 本 地 运行 队列 中 ，schedule(}) 就 调用 


wake_sleeping_dependent ()} 重 新 调度 空间 CPU ( 即 每 个 运行 swapper 进 程 的 CPU) 中 
的 可 运行 进程 。 就 像 前 面 讨论 aependaent_sleeper1) 国 数 时 所 说 明 的 ， 通 常 在 内 核 支 
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持 超 线程 技术 的 时 候 可 能 会 出 现 这 种 情况 。 然 而 , 在 单 处 理 器 系统 中 , 或 者 当 把 进程 迁 
移 到 本 地 运行 队列 的 种 种 努力 都 失败 的 情况 下 ， 函 数 就 选择 swapper 进程 作为 next 进 
程 并 继续 进行 下 一 步骤 。 


我 们 假设 scheaule() 国 数 已 经 肯定 运行 队列 中 有 一 些 可 运行 的 进程 ， 现 在 它 必 须 检查 
这 些 可 运行 进程 中 是 否 至 少 有 一 个 进程 是 活动 的 。 如 果 没 有 , 函数 就 交换 运行 队列 数据 
结构 的 act ive 和 expired 字 有 段 的 内 容 。 因 此 ， 所 有 的 过 期 进程 变 为 活动 进程 ,而 空 集 
合 准 备 接纳 将 要 过 期 的 进程 。 


array = rg->activer 

if (‘iarray->nr_active) 1 
rq->active = rq->expired; 
rq->explired = array:; 
array = rgd->»active; 
rq->expired timestamp 
rgq->best _ expired prio 

} 


0 ; 
140; 


现在 可 以 在 活动 的 prio_array_t 数据 结构 中 搜索 一 个 可 运行 进程 了 (参见 第 三 章 “ 标 
识 一 个 进程 ”一 节 )。 首 先 ，schedule1{) 搜 索 活 动 进程 集合 位 掩 码 的 第 一 个 非 0 位 。 回 
忆 一 下 ， 当 对 应 的 优先 级 链表 不 为 空 时 ， 就 把 位 掩 码 的 相应 位 置 1。 因 此 ， 第 一 个 非 0 
位 的 下 标 对 应 包含 最 佳 运行 进程 的 链表 。 随 后 ， 返 回访 链表 的 第 一 个 进程 描述 符 : 

idx = scheqd_find. first_bitlarray->bitmap}:; 

next = list_entrylarray->qyeue[lidx] .next, task tt, run_ list}):; 
函数 sched_find_first_bit () 是 基于 bsf1 汇编 语言 指令 的 ， 它 返回 32 位 字 中 被 设 
置 为 ] 的 最 低位 的 位 下 标 。 


局 部 变量 next 现在 存放 将 取代 prev 的 进程 描述 符 指 针 。schedule |() 函 数 检查 next 
->activated 字段 ， 该 宇 段 的 编码 值 表示 进程 在 被 唤醒 时 的 状态 ， 如 表 7-6 所 示 。 


表 7-6: 进程 描述 符 中 activated 字段 的 舍 义 


值 说 明 

0 进程 处 于 TASK_RUNNING 状态 

l 进程 处 于 TASK_INTERRUPTIBLE 或 TASK_STOPPED 状 态 , 而 且 正 在 被 系统 
调用 服务 例 程 或 内 核 线程 唤醒 

2 进程 处 于 TASK_INTERRUPTIBLE 或 TASK_STOPPED 状 态 , 而 且 正在 被 中 断 
处 理 程序 或 可 延迟 函数 唤醒 


-1 进程 处 于 TASK_UNINTERRUPTIBLE 状态 而 且 正 在 被 唤醒 


进程 贡 | 


如 果 next 是 一 个 普通 进程 , 而 且 它 正在 从 TASK_INTERRUPTIBLE 或 TASK_STOPPED 状 
态 被 唤醒 ,调度 程序 就 把 自从 进程 插入 运行 队列 开始 所 经 过 的 纳 秒 数 加 到 进程 的 平均 睡 
眠 时 间 中 。 换言之 , 进程 的 睡眠 时 间 被 增加 了 , 以 包含 进程 在 运行 队列 中 等 待 CPU 所 消 
耗 的 时 间 。 
if {next->prio >= 100 && next->activated > 0) 1 
unsigned long long delta = NOW - next->timestamp:; 
if (next-»>activated == 1) 
delta = (delta * 38) / 128:; 
Array = Next ->AaArray; 
dequeue_task (next, array}:; 
recalc_task_priolnext, next->timestamp + deltal; 
endqueue_tasklnext, arrayl}): 
} 
next->activated=0; 
要 说 明 的 是 ,调度 程序 把 被 中 断 处 理 程序 和 可 延迟 函数 所 唤醒 的 进程 与 被 系统 调用 服务 
例 程 和 内 核 线程 所 晚 醒 的 进程 区 分 开 来 。 在 前 一 种 情况 下 , 调度 程序 增加 全 部 运行 队列 
等 待 时间 , 而 在 后 一 种 情况 下 , 它 只 增加 等 待 时 间 的 部 分 。 这 是 因为 交互 式 进 程 更 可 能 
被 异步 事件 (考虑 用 户 在 键盘 上 的 按键 操作 ) 而 不 是 同步 事件 唤醒 。 


schedule() 完 成 进程 切换 时 所 执行 的 操作 


现在 schedule() 函数 已 经 要 让 next 进程 投入 运行 。 内 核 将 立刻 访问 next 进程 的 
thread_info 数据 结构 ， 其 地 址 存放 在 next 进程 描述 符 的 接近 顶部 的 位 置 。 


switch tasks: 

prefetch inextt: 
prefetch 宏 提示 CPU 控 制 单元 把 next 的 进程 描述 符 第 一 部 分 字段 的 内 容 装 入 硬件 高 速 
缓存 。 正 是 这 一 点 改善 了 schedule() 的 性 能 , 因为 对 于 后 续 指 令 的 执行 (不 影响 next ) ， 
数据 是 并 行 移动 的 。 
在 替代 prev 之 前 ， 调 度 程序 应 该 完成 一 些 管理 的 工作 : 

clear tsk need reschedlprev):; 

recu_gqsctr_incIiprev->thread_info->cpu); 
以 防 (万 一 ) 以 延迟 方式 调用 schedadule(),clear_ tsk_need_resched() 国 数 请 除 Prev 
的 TIF_NEED_RESCHED 标志 。 然 后 ， 销 数 记 录 CPU 正在 经 历 静止 状态 【参见 第 五 章 
“ 读 一 拷贝 一 更 新 (RCU)” 一 节 ]。 


schedule 1!) 函数 还 必须 减少 prev 的 平均 睡眠 上 时间， 并 把 它 补充 给 进程 所 使 用 的 CPU 
时 间 片 : 


他 


prev->sleep_Aavg -= run time; 

if ({({long)prev->ssleep_avg <= 0) 
DIev->SsSleep_AaAvg = 0; 

prev->timestamp = prev->last_ran = now; 


随后 更 新 进程 的 时 间 截 。 


prev 和 next 很 可 能 是 同一 个 进程 ; 如 果 在 当前 运行 队列 中 没有 优先 级 较 高 或 相等 的 其 
他 活动 进程 时 ， 会 发 生 这 种 情况 。 在 这 种 情况 下 ， 函 数 不 做 进程 切换 ，: 
if (prev == next}) 1 
spin unlock_ irgq{(&rgq-=>lock); 


goto finish schedule; 
} 


这 里 ，prev 和 next 是 不 同 的 进程 ， 进 程 切 换 确实 发 生 了 : 


next->timestamp = now: 
rg->nr_switches+t+; 

rd->curr = next: 

prev = context _ switchlrg, prev, next}: 


context_switch{) 函数 建立 next 的 地 址 空间 。 正 如 我 们 将 在 第 九 章 “ 内 核 线程 的 内 存 描 
述 符 ” 中 将 要 看 到 的 , 进程 描述 符 的 active_mrm 字 段 指向 进程 所 使 用 的 内 存 描述 符 , 而 mm 
字段 指向 进程 所 拥有 的 内 存 描述 符 。 对 于 一 般 的 进程 ， 这 两 个 字段 有 相同 的 地 址 ， 但 是 ， 
内 核 线程 没有 它 自己 的 地 址 空间 ， 而 且 它 的 mm 字段 总 是 被 设置 为 NULL。context_ 
switch() 函数 确保 ， 如 果 next 是 一 个 内 核 线程 ， 它 使 用 prev 所 使 用 的 地 址 空间 : 
if (!inext-»>mm) 1 
next->active_mm = prev->active_mm; 
atomic_inc (gprev->active mm->mm_ count:; 


enter lazy_tlb{lprev->active mm, next); 


} 


一 直到 Linux 2.2 版 ， 内 核 线程 都 有 自己 的 地 址 空间 。 那 种 设计 选择 不 是 最 理想 的 ， 
为 不 管 什么 时 候 当 调度 程序 选择 一 个 新 进程 (即使 是 一 个 内 核 线程 ) 运行 时 ， 都 必须 改 
变 页 表 。 因 为 内 核 线程 都 运行 在 内 核 态 , 它 仅 使 用 线性 地 址 空间 的 第 4 个 GB , 其 映射 对 
系统 的 所 有 进程 都 是 相同 的 。 甚至 最 坏 情况 下 , 写 cr3 寄 存 器 会 使 所 有 的 TLB 表 项 无 效 
[参见 第 二 章 “ 转 换 后 授 缓 冲 器 (TLB) "一 节 ], 这 将 导致 极 大 的 性 能 损失 。 现在 的 Linux 
具有 更 高 的 效率 , 因为 如 果 next 是 内 核 线 程 , 就 根本 不 触及 页 表 。 作为 进一步 的 优化 ， 
如 果 next 是 内 核 线 程 ， schedule() 函数 把 进程 设置 为 懒 情 TLB 模式 [参见 第 二 章 “ 转 
换 旁 路 缓冲 器 (TLB)” 一 节 )]。 


相反 ,如 果 next 是 一 个 普通 进程 ，context-switch 函 数 用 next 的 地 址 空间 圭 换 prev 
的 地 址 空间 : 


8 


if tnext-»>mm) 
switch_mm'preVv->active_mm, next->mm, next):; 


如 果 prev 是 内 核 线程 或 正在 进出 的 进程 ,context_switch{) 函 数 就 把 指向 prev 内存 
描述 符 的 指针 保存 到 运行 队列 的 prev_mm 字 7 段 中 ， 然 后 重新 设置 prev->active_mm: 
if {iprev-smm) 1 
rdq->prev _ mm = prev->active_mm; 


Drev->active_ mm = NULL: 
} 


现在 ，context_switch() 终 于 可 以 调用 switch_to() 执 行 prev 和 next 之 间 的 进程 
切换 了 ( 见 第 三 章 “ 执 行进 程 切换 ”一 节 ); 


switch _ tol(prev, next, prev)}; 
Freturn prev; 


进程 切换 后 schedule() 所 执行 的 操作 


schedule1) 孙 数 中 在 switch_to 宏 调用 之 后 紧 接 着 的 指令 并 不 由 next 进程 立即 执行 ， 
而 是 稍 后 当 调 度 程 序 又 选择 prev 执 行 时 由 prev 执行 。 然 而 , 在 那个 时 刻 , prev 局 部 
变量 并 不 指向 我 们 开始 描述 schedule() 时 所 替换 出 去 的 原来 那个 进程 , 而 是 指向 prev 
被 调度 时 由 prev 替换 出 的 原来 那个 进程 (如果 你 被 搞 糊 涂 了 ,请 回 到 第 三 章 阅 读 “ 执 
行进 程 切换 ”一 节 )。 进 程 切换 后 的 第 一 部 分 指令 是 ; 


barrieri(}); 
finish task switch lprev); 


在 schedule() 中 ， 紧 接着 context_switch1() 国 数 调 用 之 后 ， 宏 barrier() 产 生 一 个 代 
码 优 化 屏障 ( 见 第 五 章 “ 优 化 和 内 存 屏 障 ” 一 节 )。 然 后 ,执行 finish_task_switch() 
图 数 : 
mm = this_ rgtl-»>prey_mm: 
this_rg{l)-»>prev_mm = NULL; 
Drev_ task_ flags = prev->flags: 
spin unlock_irgql&this_rg{}->lock}),;} 
1f {mm) 
mmdrop{mmi : 
if (prev_task_ flags & PF_DEAD) 
BuUut_task struct (prev):; 


如 果 Prev 是 一 个 内 核 线程 ， 那 么 运行 队列 的 prev_mm 字 段 存放 借 给 prev 的 内 存 描述 
符 的 地 址 。 正 如 我 们 在 第 九 章 将 要 看 到 的 , mmdarop1() 减 少 内 存 描述 符 的 使 用 计数 器 ; 如 
果 读 计数 器 等 于 0 了 (可 能 是 因为 prew 是 一 个 伪 死 进程 ), 销 数 还 要 释放 与 页 表 相 关 的 
所 有 描述 符 和 虚拟 存储 区 。 
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finish_task_switch() 销 数 还 要 释放 运行 队列 的 自 旋 锁 并 打开 本 地 中 断 。 然 后 ,检查 
prev 是 否 是 一 个 正在 从 系统 中 被 删除 的 伪 死 任务 ( 见 第 三 章 “ 进 程 终 止 ” 一 节 ) 如 果 是 ， 
就 调用 put_task_struct () 以 释放 进程 描述 符 引 用 计数 器 ,并 撤消 所 有 其 余 对 该 进程 的 
引用 ( 见 第 三 章 “ 进 程 删 除 ” 一 节 )。 


schedule{) 国 数 的 最 后 一 部 分 指令 是 ， 
Finish schedule: 


BIEeY = CUrrent: 
if (prev->lock_ depth >= 0) 
__reacdquire kernel lockr).: 
Dreempt_enable no_ reschedil!):; 
if (test_bit{TIF NEED_RESCHED, &current thread info{}-~flags) 
UOto need_resched; 
Teturn, 


如 你 所 见 ，schedule() 在 需要 的 时 候 重新 获得 大 内 核 锁 ， 重 新 启用 内 核 抢占 ， 并 检查 


是 否 一 些 其 他 的 进程 已 经 设置 了 当前 进程 的 TIF_NEED_RESCHED 标 志 。 如 果 是 , 则 整 
个 schedule() 函 数 重 新 开始 执行 ， 否 则 ， 函 数 结束 。 


多 处 理 器 系统 中 运行 队列 的 平衡 


我 们 在 第 四 章 已 经 看 到 ，Linux 一 直 坚 持 采 用 对 称 多 处 理 模型 ， 这 意味 着 , 与 其 他 CPU 
相 比 ， 内 核 不 应 该 对 一 个 CPU 有 任何 偏向 。 但 是 ， 多 处 理 器 机 器 具有 很 多 不 同 的 风格 ， 
而 且 调 度 程序 的 实现 随 硬 件 特征 的 不 同 而 有 所 不 同 。 我 们 将 特别 关注 下 面 3 种 不 同类 型 
的 多 处 理 器 机 器 : 


夺 崔 的 多 处 本 器 余 系 结构 
直到 最 近 , 这 是 多 处 理 器 机 器 最 普通 的 体系 结构 。 这 些 机 器 所 共有 的 RAM 芯片 集 
被 所 有 CPU 共享 。 

超 线 如 
超 线 程 蕊 片 是 一 个 立刻 执行 几 个 执行 线程 的 微 处 理 器 , 它 包 括 几 个 内 部 寄存 器 的 撕 
贝 ， 并 快速 在 它们 之 间 切 换 。 这 种 由 Intel 发 明 的 技术 ， 使 得 当前 线程 在 访问 内 存 
的 间隙 ， 处 理 器 可 以 使 用 它 的 机 器 周期 去 执行 另外 一 个 线程 。 一 个 超 线程 的 物理 
CPU 可 以 被 Linux 看 作 几 个 不 同 的 逻辑 CPU。 

NUMA 
把 CPU 和 RAM 以 本 地 “节点 ”为 单位 分 组 (通常 一 个 节点 包 插 一 个 CPU 和 几 个 
RAM 芯片 )。 内 存 仲 裁 器 (一 个 使 系统 中 的 CPU 以 串 型 方式 访问 RAM 的 专用 电 
路 ， 见 第 二 章 “ 内 存 地 址 ”一 节 ) 是 典型 的 多 处 理 器 系统 的 性 能 瓶颈 。 在 NUMA 
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体系 结构 中 ， 当 CPU 访问 与 它 同 在 一 个 节点 中 的 “本 地 ”RAM 芯片 时 ， 几 乎 没有 
竞争 ， 因 此 访问 通常 是 非常 快 的 。 另 一 方面 ， 访 问 其 所 属 节 点 外 的 “远程 ”RAM 
芯片 就 非常 慢 。 我 们 将 在 第 八 章 “ 非 一 致 内 存 访问 (NUMA )” 一 节 讨 论 Linux 内 
核 内 存 分 配器 是 如 何 支持 NUMA 体系 结构 的 。 


这 些 基本 的 多 处 理 器 系统 类 型 经 常 被 组 合 使 用 。 例如 ,内核 把 一 个 包括 两 个 不 同 超 线程 
CPU 的 主板 看 作 四 个 逻辑 CPU 。 


正如 我 们 在 上 一 节 所 看 到 的 ,schedule() 国 数 从 本 地 CPU 的 运行 队列 挑选 新 进程 运行 。 
因此 , 一 个 指定 的 CPU 只 能 执行 其 相应 的 运行 队列 中 的 可 运行 进程 。 另外, 一 个 可 运行 
进程 总 是 存放 在 某 一 个 运行 队列 中 :任何 一 个 可 运行 进程 都 不 可 能 同时 出 现在 两 个 或 多 
个 运行 队列 中 。 因 此 ， 一 个 保持 可 运行 状态 的 进程 通常 被 限制 在 一 个 固定 的 CPU 上 ， 


这 种 设计 通常 对 系统 性 能 是 有 益 的 , 因为 , 运行 队列 中 的 可 运行 进程 所 拥有 的 数据 可 能 
填 满 每 个 CPU 的 硬件 高 速 缓存 。 但 是 在 有 些 情况 下 ， 把 可 运行 进程 限制 在 一 个 指定 的 
CPU 上 可 能 引起 严重 的 性 能 损失 。 例 如 ， 考 虑 频繁 使 用 CPU 的 大 量 批 处 理 进 程 : 如果 
它们 绝 大 多 数 都 在 同一 个 运行 队列 中 , 那么 系统 中 的 一 个 CPU 将 会 超 负 荷 , 而 其 他 一 些 
CPU 几乎 处 于 空闲 状态 。 


因此 ,内核 周 期 性 地 检查 运行 队列 的 工作 量 是 否 平 衡 ,， 并 在 需要 的 时 候 ， 把 一 些 进程 从 

个 运行 队列 迁移 到 另 一 个 运行 队列 。 但 是 ,为 了 从 多 处 理 器 系统 获得 最 佳 性 能 ， 负 载 
平衡 算法 应 该 考虑 系统 中 CPU 的 拓扑 结构 。 从 内 核 2.6.7 版 本 开始 ，Linux 提出 一 种 基 
于 “调度 域 ”概念 的 复杂 的 运行 队列 平衡 算法 。 正 是 有 了 调度 域 这 一 概念 ， 使 得 这 种 算 
法 能 够 很 容易 适应 各 种 已 有 的 多 处 理性 体系 结构 (甚至 诸如 那些 基于 新 近 出 现 的 "多核 ” 
微 处 理 器 的 体系 结构 )。 


调度 域 

调度 域 (scheduling domain) 实际 上 是 一 个 CPU 集合 ， 它 们 的 工作 量 应 当 由 内 核 保持 
平衡 。 一般 来 说 , 调度 域 采取 分 层 的 组 织 形式 : 最 上 层 的 调度 域 (通常 包括 系统 中 的 所 
有 CPU) 包括 多 个 子 调度 域 ， 每 个 子 调度 域 包括 一 个 CPU 子 集 。 正 是 调度 域 的 这 种 分 
层 结构 ， 使 工作 量 的 平衡 能 以 如 下 有 效 方式 来 实现 。 


每 个 调度 域 被 依次 划分 成 一 个 或 多 个 组 , 每 个 组 代表 调度 域 的 一 个 CPU 子 集 。 工 作 量 的 
平衡 总 是 在 调度 域 的 组 之 间 来 完成 。 换言之 , 只 有 在 某 调 度 域 的 某 个 组 的 总 工作 量 远 远 
低 于 同一 个 调度 域 的 另 一 个 组 的 工作 量 时 ， 才 把 进程 从 一 个 CPU 迁移 到 另 一 个 CPU 。 


图 7-2 给 出 了 3 个 调度 域 分 层 实 例 ， 对 应 3 种 主要 的 多 处 理 器 机 器 体系 结构 。 


= 第 七 训 


了 

组 1 个 物理 CPU 

2 站 有 有 两 人 组 | 
1 个 节点 

We | 组 1 个 逻辑 CPU 六 和 个 CU 





gt (b) 2—CPU. 有 让 扣 各 的 SI (c}8 CPU 的 RUN 


7-2: 调度 域 分 层 的 3 个 实例 


图 7-2(a) 表 示 具 有 两 个 CPU 的 标 崔 多 处 理 器 体系 结构 中 由 单个 调度 域 组 成 的 一 个 层次 结 
构 ， 读 调度 域 包括 两 个 组 ， 每 个 组 有 一 个 CPU 。 


图 7-2 (b) 表 示 一 个 两 层 的 层次 结构 ， 用 在 使 用 超 线程 技术 、 有 两 个 CPU 的 多 处 理 器 结 
构 中 。 最 上 层 的 调度 域 包括 了 系统 中 所 有 四 个 逻辑 CPU, 它 由 两 个 组 构成 。 上 层 域 的 每 
个 组 对 应 一 个 子 调度 域 并 包括 一 个 物理 CPU。 底 层 的 调度 域 ( 也 被 称 为 基本 调度 域 } 包 
括 两 个 组 ， 每 个 组 一 个 逻辑 CPU 。 


最 后 ,图 7-2(c) 表 示 有 两 个 节点 ,每 个 节点 有 四 个 CPU 的 8-CPU NUMA 体系 结构 上 的 
两 层 层次 结构 。 最 上 层 的 域 由 两 个 组 构成 ,每 个 组 对 应 一 个 不 同 的 节点 。 每 个 基本 调度 
域 包 括 一 个 节点 内 的 CPU， 包 括 四 个 组 ， 每 个 组 包括 一 个 CPU。 


每 个 调度 域 由 一 个 sched_domain 描 述 符 表 示 , 而 调度 域 中 的 每 个 组 由 sched_group 描 
述 罕 表示 , 每 个 sched_domain 描 述 符 包括 一 个 groups 字 段 , 它 指向 组 描述 符 链表 中 的 
第 一 个 元 素 。 此外，scheqd_domain 结 构 的 parent 字段 指向 父 调度 域 的 描述 符 (如 果 有 
的 话 )。 


系统 中 所 有 物理 CPU 的 scheda_aomain 描 述 符 都 存放 在 每 CPU 变量 phys_domains 中。 
如 果 内 核 不 支持 超 线程 技术 , 这 些 域 就 在 域 层次 结构 的 最 底层 , 运行 队列 描述 符 的 sa 字 
段 指 向 它们 ， 即 它们 是 基本 调度 域 。 相 反 ， 如果 内 核 支 持 超 线程 技术 ，, 则 底层 调度 域 存 
才 在 每 CPU 变量 cpyu_domains 中 ， 
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rebalance_tick() 函 数 


为 了 保持 系统 中 运行 队列 的 平衡 ， 每 次 经 过 一 次 时 钟 节 拍 ，scheduler_kicxf) 就 调用 
rebalance_tick() 国 数 。 它 接收 的 参数 有 : 本 地 CPU 的 下 标 this_cpu 、 本 地 运行 队 
列 的 地 址 this_ra 以 及 一 个 标志 idle， 该 标志 可 以 取 下 面 的 值 . 


SCHED IDLE 
CPU 当前 空间 ， 即 current 是 swapper 进程 。 
NOT IDLE 
CPU 当前 不 空闲 ， 即 current 不 是 swapper 进程 。 


rebalance_tick() 国 数 首先 确定 运行 队列 中 的 进程 数 ,并 更 新 运行 队列 的 平均 工作 量 ， 
为 了 完成 这 个 工作 ， 国 数 要 访问 运行 队列 描述 符 的 nr_running 和 cpu_load 字段 。 


随后 ，rebalance_tick() 开 始 在 所 有 调度 域 上 的 循环 ， 其 路 径 是 从 基本 域 (本 地 运行 
队列 描述 符 的 sa 字段 所 引用 的 域 ) 到 最 上 层 的 域 。 在 每 次 循环 中 ， 国 数 确 定 是 否 已 到 
调用 函数 10ad_balance |() 的 时 间 ， 从 而 在 调度 域 上 执行 重新 平衡 的 操作 。 由 存放 在 
sched_domain 描 述 社 中 的 参数 和 idle 值 决定 调用 1coad_balance|(} 的 频率 ,如果 idle 
等 于 SCHED_IDLE， 那 么 运行 队列 为 空 ，rebalance_tick() 就 以 很 高 的 频率 调用 
load balance!) (大 概 每 一 到 两 个 节拍 处 理 一 次 对 应 于 逻辑 和 物理 CPU 的 调度 域 )。 相 
反 ， 如 果 idle 等 于 NOT_IDLE, rebalance_tickt) 就 以 很 低 的 频率 调度 
lcad_balance{)( 太 要 每 10ms 处 理 一 次 地 辑 CPU 对 应 的 调度 域 ， 每 100ms 处 理 一 次 
物理 CPU 对 应 的 调度 域 )。 


load_balance() 函 数 
load_balance() 函 数 检 查 是 否 调度 域 处 于 严重 的 不 平衡 状态 。 更 确切 地 说 ， 它 检查 是 
否 可 以 通过 把 最 繁忙 的 组 中 的 一 些 进程 迁移 到 本 地 CPU 的 运行 队列 来 减轻 不 平衡 的 状 
况 。 如 果 是 ， 函 数 尝试 实现 这 个 迁移 。 它 接收 四 个 参数 ; 
this_cpu 

本 地 CPU 的 下 标 。 
this_rg 

本 地 运行 队列 的 描述 符 的 地 址 。 
sd . 
指向 被 检查 的 调度 域 的 描述 符 。 


人 和 


idle 
取 值 为 SCHED_IDLE (本 地 CPU 空闲 ) 或 NOT_IDLE。 


函数 执行 下 面 的 操作 : 


1. 获取 this_rq->lock 自 旋 锁 。 


2. 调用 fina_busiest_group(}) 函 数 分 析 调 度 域 中 各 组 的 工作 量 , 消 数 返 回 最 繁忙 的 
组 的 sched_group 描 述 符 的 地 址 ， 假 设 这 个 组 不 包括 本 地 CPU， 在 这 种 情况 下 ， 
乓 数 还 返回 为 了 恢复 平衡 而 被 迁移 到 本 地 运行 队列 中 的 进程 数 。 另 一 方面 , 如 果 最 
繁忙 的 组 包括 本 地 CPU 或 所 有 的 组 本 来 就 是 平衡 的 , 函数 返回 NULL。 这 个 过 程 不 
是 微不足道 的 ， 因 为 函数 试图 过 滤 掉 统计 工作 量 中 的 波动 。 

3. 如 果 fina_busiest_group{() 在 调度 域 中 设 有 找到 既 不 包括 本 地 CPU 又 非常 繁忙 
的 组 , 就 释放 this_rgq->lock 自 旋 锁 , 调整 调度 域 描 述 符 的 参数 , 以 延迟 本 地 CPU 
下 一 次 对 loaaq_balancel) 的 调度 ， 然 后 国 数 终止 。 

4. ”调用 find_busiest_queue|() 函 数 以 查找 在 第 2 步 中 找到 的 组 中 最 繁忙 的 CPU, 函 
数 返回 相应 运行 队列 的 描述 符 地 址 busiest。 

5. 获取 另 一 个 自 旋 锁 ， 也 就 是 busiest->lock 自 旋 锁 。 为 了 避免 死 锁 ， 这 一 操作 必 
须 非 常 小 心 : 首先 释放 this_rq->lock， 然后 通过 增加 CPU 下 标 获得 这 两 个 锁 。 

6. 调用 move_tasks() 函 数 , 尝试 从 最 繁忙 的 运行 队列 中 把 一 些 进程 迁移 到 本 地 运行 
队列 this_rg 中 ( 见 下 一 节 )。 


7.。 如 果 国 数 move_task() 设 有 成 功 地 把 某 些 进程 迁移 到 本 地 运行 队列 ， 那 么 调 育 域 
还 是 不 平衡 ,把 busiest->active palance 标 志 设 置 为 1, 并 唤醒 miegrafion 内核 
线程 , 它 的 描述 符 存放 在 busiest->migration_thread 中 。Migration 内 核 线程 顺 
着 调度 域 的 链 搜 索 一 从 最 繁忙 运行 队列 的 基本 域 到 最 上 层 域 , 寻找 空 闻 CPU。 如 果 
找到 一 个 空间 CPU, 该 内 核 线程 就 调用 move_tasks 1{) 把 一 个 进程 迁移 到 空闲 运行 
队列 。 

8. 释放 busiest->lock 和 this_rg->lock 自 旋 锁 。 


9. ”图 数 结束 。 


move_tasks() 函 数 

move_tasks() 国 数 把 进程 从 源 运 行 队列 迁移 到 本 地 运行 队列 。 它 接收 6 个 参数 :this_rq 
和 this_cpu (本 地 运行 队列 描述 符 和 本 地 CPU 下 标 )、busiest ( 源 运行 队列 描述 符 )、 
max_nr_move( 被 迁移 进程 的 最 大 数 ) .sda( 在 其 中 执行 平衡 操作 的 调度 域 的 描述 符 地 址 ) 
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以 及 idle 标志 (除了 可 以 被 设置 为 SCHED_IDLE 和 NOT_IDLE 以 外 ， 在 函数 被 
idle_pbalance|) 则 接 调 用 时 ， 该 标志 还 可 以 被 设置 为 NEWLY_IDLE。 信 本 章 前 面 
“schedule() 函 数 ” 一 节 )。 


函数 首先 分 析 busiest 运行 队列 的 过 期 进程 ， 从 优先 级 高 的 进程 开始 。 当 扫描 完 所 
有 过 期 进程 后 ， 国 数 扫 描 busiest 运行 队列 的 话 动 进程 。 国 数 对 所 有 的 候选 进程 调 
用 can_ migrate_task()， 如 果 下 列 条 件 都 满足 ， 则 can_migrate taskf() 返 回 1， 
。 “进程 当前 设 有 在 远程 CPU 上 执行 。 
。 “本 地 CPU 包含 在 进程 描述 符 的 cpus_allowed 位 掩 码 中 。 
。 ”至 少 满足 下 列 条 件 之 一 : 
， 本 地 CPU 空 用 。 如果 内 核 支持 超 线 程 技术 , 则 所 有 本 地 物理 芯片 中 的 逻辑 CPU 
*。， 内核 在 平衡 调度 域 时 因 反 复 进 行进 程 迁 移 都 不 成 功 而 陷入 困境 。 
。 被 迁移 的 进程 不 是 “高 速 缓存 命中 ”的 (最近 不 曾 在 远程 CPU 上 执行 , 因此 可 
以 设想 了 远程 CPU 上 的 硬件 商 速 缓存 中 役 有 该 进程 的 数据 ) 。 
如 果 can_migrate _ task() 返 回 1, move_ kasks() 贺 调用 pul1_task() 国 数 把 候选 进程 迁 
称 到 本 地 运行 队列 中 。 实 际 上 ，pull_task1() 执 行 aequeue_task() 从 远程 运行 队列 出 除 


进程 ， 然 后 执行 enqueue_task |) 把 进程 插入 本 地 运行 队列 ， 最后， 如 果 刚 被 迁移 的 进程 
比 当 前 进程 拥有 更 高 的 动态 优先 级 ， 就 调用 resched_task() 抢 占 本 地 CPU 的 当前 进程 。 


与 调度 相关 的 系统 调用 

已 经 介绍 的 几 个 系统 调用 允许 进程 改变 它们 的 优先 级 及 调度 策略 。 作 为 一 般 原 则 , 总 是 
允许 用 户 降低 其 进程 的 优先 级 。 然 而 ,如 果 他 们 想 修 改 属 于 其 他 某 一 用 户 进 程 的 优先 级 ， 
或 者 如 果 他 们 想 增 加 自己 进程 的 优先 级 ， 那 么 ， 他 们 必须 拥有 超级 用 户 的 特权 。 


nice() 系 统 调用 

nice()( 注 3) 系统 调用 允许 进程 改变 它们 的 基本 优先 级 。 包 含 在 incremert 参数 中 的 

整数 值 用 来 修改 进程 描述 符 的 ni ce 字段。 在 Unix 中 的 nice 命令 (允许 用 户 用 修改 的 

调度 优先 级 来 运行 程序 ) 就 是 基于 这 个 系统 调用 的 。 

本 因为 这 个 系统 调用 用 来 降低 进程 的 优先 姐 , 因此 为 了 自己 的 优先 组 而 调用 它 的 用 户 对 其 
他 用 户 来 说 就 是 “美好 的 (nice) 。 


有 0 





sys_nice() 服 务 例 程 处 理 nice() 系 统 调用 。 尽 管 increment 参数 可 以 有 任何 值 , 但 是 
大 于 40 的 绝对 值 会 被 截 为 40。 从 传统 上 来 说 ， 负 值 相 当 于 请 求 优先 级 增加 ， 并 请 求 超 
级 用 户 特权 ,而 正 值 相 当 于 请 求 优先 级 减少 。 在 人 负 增 加 的 情况 下 , 调用 capable() 国 数 
核实 进程 是 否 有 CAP_SYS_NICE 权 能 。 而 且 , 水 数 调用 security_task_setnice|() 安 
全 勾 。 我 们 将 在 第 二 十 章 讨 论 那 个 函数 。 如 果 用 户 想 用 请 求 的 权能 来 改变 优先 级 ， 
sys_nice{) 就 把 current->static_prioco 转 换 到 nice 值 的 范围 ， 再 加 上 increment 
的 值 ， 并 调用 set_user_nice1l) 国 数 .然后 ，set_user_nicel) 国 数 获得 本 地 运行 
队列 锁 ， 更 新 current 进程 的 静态 优先 级 ,调用 resched_task() 函 数 以 允许 其 他 进程 
抢占 current 进程 ， 并 释放 运行 队列 锁 。 


nicef) 系 统 调 用 只 维持 向 后 兼容 , 它 已 经 被 下 面 描 述 的 setpriority () 系 统 调 用 取代 。 


getpriority() 和 setpriority() 系 统 调 用 
nice () 系 统 调 用 只 影响 调用 它 的 进程 ,而 另外 两 个 系统 调用 getpriority () 和 setpriority() 
则 作用 于 给 定 组 中 所 有 进程 的 基本 优先 级 。getpriority() 返 回 20 减 去 给 定 组 中 所 有 进程 之 
中 最 低 nice 字 段 的 值 ( 即 所 有 进程 中 的 最 高 优先 级 ) ， setpriority (1 把 给 定 组 中 所 有 进程 
的 基本 优先 级 都 设置 为 一 个 给 定 的 值 。 
内 核对 这 两 个 系统 调用 的 实现 是 通过 sys_getpriority() 和 sys_setpriority() 服 务 
例 程 完 成 的 。 这 两 个 服务 例 程 本 质 上 作用 于 一 组 相同 的 参数 ; 
which 
指定 进程 组 的 值 。 它 采用 下 列 值 之 一 : 
PRIO_PROCESS 
根据 进程 的 ID 选择 进程 (进程 描述 符 的 pia 字段 ) 
PRIO_PGRP 
根据 组 ID 选择 进程 (进程 描述 符 的 pgrp 字段 ) 
PRIQ USER 
根据 用 户 ID 选择 进程 (进程 描述 符 的 uid 字段 ) 
Who 


用 pid、pgrp 或 uid 字 段 的 值 (取决 于 which 的 值 ) 选择 进程 。 如 果 who 是 0， 
则 把 它 的 值 设置 为 current 进程 相应 字段 的 值 。 

niceval 
新 的 基本 优先 级 值 ( 仅 被 sys_setpriority1() 所 需要 )。 它 的 取 值 范围 应 该 在 一 20 
(最 高 优先 级 ) 一 +19 (最 小 优先 级 ) 之 间 。 
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正如 以 前 提 到 的 , 只 有 具有 CAP_SYS_NICE 权 能 的 进程 才 允 许 增加 它们 自己 的 基本 优先 
级 或 修改 其 他 进程 的 优先 级 。 


正如 我 们 将 在 第 十 章 看 到 的 ,， 只 有 当 出 现 了 某 些 错 误 时 ,系统 调用 才 返 回 一 个 负 值 。 由 
于 这 个 原因 ，getpriority() 不 返回 -20~+19 之 间 正 常 的 nice 值 ， 而 是 1~40 之 间 的 
一 个 非 负 值 。 


sched_getaffinity() 和 sched_setaffinity() 系 统 调用 


scheaq_getatftinity() 和 scheq_setaftfinity() 系 统 调 用 分 别 返 回 和 设置 CPU 进程 亲 
和 力 掩 码 ， 也 就 是 允许 执行 进程 的 CPU 的 位 掩 码 。 该 掩 码 存放 在 进程 描述 符 的 cpus_ 
allowed 字 7 段 中 。 


sys_sched_getaffinity|() 系 统 调 用 服务 例 程 通过 调用 find_task_by_pid1) 搜 索 进 程 
描述 符 ， 返 回 的 值 为 相应 字段 cpus_allowed 与 可 用 CPU 位 图 做 与 运算 的 结果 。 


系统 调用 sys_scheqd_setaffinity() 有 一 点 复杂 。 除 了 寻找 目标 进程 的 描述 符 并 
更 新 cpus_allowed 字段 以 外 ， 该 函数 还 必须 检查 进程 所 属 的 运行 队列 ， 其 对 应 的 
CPU 亲和力 掩 码 是 否 不 再 是 最 新 值 。 在 这 种 糟糕 的 情况 下 ， 必须 把 进程 从 一 个 运行 
队列 迁移 到 另 一 个 运行 队列 。 为 了 避免 死 锁 和 竞争 条 件 的 问题 , 由 migration 内 棱 
线程 (每 个 CPU 有 一 个 这 样 的 线程 ) 完成 这 个 工作 ,一旦 必须 把 进程 从 运行 队列 ral 
迁移 到 运行 队列 raq2，sys_sched_setattinity() 系 统 调用 就 唤醒 rql 的 迁移 线 
程 (rql->migration_thread), 该 线程 从 zxgl 中 删除 被 迁移 的 进程 , 然后 把 它 播 人 


A 


与 实时 进程 相关 的 系统 调用 
现在 我 们 介绍 一 组 系统 调用 , 它们 允许 进程 改变 自己 的 调度 规则 , 尤其 是 可 以 变 为 实时 
进程 。 进 程 为 了 修改 任何 进程 (包括 自己 ) 的 描述 符 的 rt_priority 和 policy 字段 ， 
同样 必须 有 具有 CAP_SYS_NICE 权能 。 


sched_getscheduler() 和 sched_setscheduler() 系 统 调用 


sched_ getscheduler |() 查 询 由 pid 参 数 所 表示 的 进程 当前 所 用 的 调度 策略 。 如 果 piq 
等 于 0， 将 检索 调用 进程 的 策略 。 如 果 成 功 ， 这 个 系统 调用 为 进程 返回 策略 : 
SCHED_FIFO、SCHED_RR 或 SCHED_NORMAL (后 者 也 称 为 SCHED_OTHER)。 相 应 的 
sys_sched_getscheduler () 服 务 例 程 调用 fina_task_by_pid()， 后 一 个 国 数 确定 给 
定 pid 所 对 应 的 进程 描述 符 ， 并 返回 其 policy 字段 的 值 。 


.=== 有 


sched_setscheduler() 系 统 调用 既 设 置 调度 策略 , 也 设置 由 参数 bid 所 表示 进程 的 相 
关 参 数 。 如 果 pPia 等 于 0， 调 用 进程 的 调度 程序 参数 将 被 设置 。 


相应 的 sys_sched_setscheduler() 系 统 调 用 服务 例 程 简单 地 调用 do_sched_ 
setscheduler () 函 数 。 后 者 检查 由 参数 policy 指 定 的 调度 策略 和 由 参数 param->scheqd_ 
priority 指 定 的 新 优先 级 是 否 有 效 。 它 还 检查 进程 是 否 具 有 CAP_SYS_NICE 权 能 , 或 者 
进程 的 拥有 者 是 否 有 超级 用 户 的 权限 。 如 果 每 个 条 件 都 满足 , 就 把 进程 从 它 的 运行 队列 
(如 果 进 程 是 可 运行 的 ) 中 删除 ; 更 新 进程 的 静态 优先 级 、 实 时 优先 级 和 动态 优先 级 ; 把 
进程 插 回 到 运行 队列 ; 最 后 , 在 需要 的 情况 下 , 调用 rescheqd_task() 函 数 抢占 运 行 队列 
的 当前 进程 。 


sched_getparam() 和 sched_setparam() 系 统 调 用 


sched_getparam() 系 统 调用 为 pia 所 表示 的 进程 检索 调度 参数 。 如 果 pid 是 0， 则 
current 进程 的 参数 被 检索 。 正 如 你 所 期 望 的 , 相应 的 sys_sched_gatparam() 服 务 例 程 
找到 与 piG 相 关 的 进程 描述 符 指针 , 把 它 的 rt_prioritcy 字 段 存放 在 类 型 为 sched_param 
的 局 部 变量 中 ， 并 调用 copy_to_user() 把 它 拷 贝 到 进程 地 址 空间 中 由 param 参数 指定 
的 地 址 。 


sched_setparam({) 系 统 调 用 类 似 于 sched_setscheduler()， 它 与 后 者 的 不 同 在 于 不 
让 调用 者 设置 policy 字段 的 值 ( 注 4)。 相 应 的 sys_scheqd_setparam() 服 务 例 程 用 几 
平 与 sys_sched_setscheduler |() 相 同 的 参数 调用 do_scheqd_setscheduler () 。 


sched_yield() 系 统 调用 


sched_ yiela() 系 统 调 用 允许 进程 在 不 被 挂 起 的 情况 下 自愿 放弃 CPU ， 进 程 仍然 处 于 
TASK_RUNNING 状态 , 但 调度 程序 把 它 放 在 运行 队列 的 过 期 进程 集合 中 (如 果 进 程 是 
普通 进程 ), 或 放 在 运行 队列 链表 的 末尾 (如 果 进 程 是 实时 进程 ), 随后 调用 schedule() 
图 数 .。 在 这 种 方式 下 , 具有 相同 动态 优先 级 的 其 他 进程 将 有 机 会 运行 。 这 个 调用 主要 由 
SCHED_FIFO 实时 进程 使 用 。 


sched_get_priority_min() 和 sched_get_priority_max() 系 统 调用 


sched_ get_priority min{} 和 sched_ get_priority_max|() 系统 调用 分 别 返 回 最 
小 和 最 大 实时 静态 优先 级 的 值 ， 这 个 值 由 policy 参数 所 标识 的 调度 策略 来 使 用 。 


注 4， POSIX 标准 的 一 个 特殊 要 求 造 成 了 这 种 异常 情况 。 


Ei 
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如 果 current 是 实时 进程 ， 则 sys_scheqd_ get_priority_min{() 服 务 例 程 返 回 1， 否则 
返回 0。 


如 果 current 是 实时 进程 ， 则 sys_scheqd_get_priority_max() 服 务 例 程 返回 99 (最 
高 优先 级 )， 否 则 返回 0。 


sched_rr_get_interval() 系 统 调用 


sched_rr_ get_interval() 系 统 调 把 参数 pid 表 示 的 实时 进程 的 轮转 时 间 片 写 入 用 户 
恋 地址 空间 的 一 个 结构 中 。 如 果 pia 等 于 0， 系 统 调用 就 写 当 前 进程 的 时 间 片 。 


相应 的 sys_scheqd_rr_get_interval() 服 务 例 程 同 样 调用 find_process_by_pid|() 检 
索 与 pid 相关 的 进程 描述 符 。 然 后 ， 把 所 选中 进程 的 基本 时 间 片 转换 为 秒 数 和 纳 秒 数 ， 
并 把 它们 拷贝 到 用 户 态 的 结构 中 。 通 常 ，FIFO 实时 进程 的 时 间 片 等 于 0。 


第 八 章 


内 存 管理 





在 第 二 章 中 我 们 已 看 到 ，Linux 如 何 有 效 地 利用 80x86 的 分 段 和 分 页 单元 把 逻辑 地 址 转 
换 为 物理 地 址 。 我们 还 提 到 , RAM 的 某 些 部 分 永久 地 分 配给 内 核 , 并 用 来 存放 内 核 代码 
以 及 静态 内 核 数 据 结构 。 


RAM 的 其 余部 分 称 为 动态 和 内存 (dynamic memory), 这 不 仅 是 进程 所 需 的 宝贵 资源 , 也 
ea 实际 上 ， 生源 和 0 和 站 各 





ey 不 需要 时 释放 ， ne ee 
第 三 章 的 “物理 内 存 布局 ”一 节 。 


本 章 主 要 通过 三 部 分 内 容 描述 内 核 如 何 给 自己 分 配 动态 内 存 .。“ 页 框 管理 ”和 “内 存 区 
管理 ”两 节 分 别 介绍 对 连续 物理 内 存 区 处 理 的 两 种 不 同 技术 。 而 “ 非 连 续 内 存 区 管理 
z i ,在 这 几 节 中 我 们 的 主题 将 涉及 诸如 内 存 管 
理 区 、 内 核 映 射 、 伙 伴 系统 、 slab 高 速 缓存 和 内 存 池 。 








页 框 党 理 


在 第 二 章 “ 硬 件 中 的 分 页 ”一 节 中 我 们 曾 介 绍 过 ，intel 的 Pentium 处理 器 可 以 采用 两 种 
不 同 的 页 框 大 小 ; 4KB 和 4MB (或 者 如 果 PAE 被 沿 活 , 则 为 2MB 一 一 参见 第 二 章 “ 物 
理 地 址 扩展 (PAE) 分 页 机 制 ” 一 节 )。Linux 采用 4KB 页 框 大 小 作为 标准 的 内 存 分 配 单 
元 。 基 于 以 下 两 个 原因 ， 这 会 使 事情 变 得 简单 ; 
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图 8-1: 动态 内 存 


。 ”由 分 页 单元 引发 的 缺 页 异常 很 容易 得 到 解释 ,或 者 是 由 于 请 求 的 页 存在 但 不 允许 进 
程 对 其 访问 , 或 者 是 由 于 请 求 的 页 不 存在 。 在 第 二 种 情况 下 , 内 存 分 配器 必须 找到 
一 个 4KB 的 空间 页 框 ， 并 将 其 分 配给 进程 。 


。 “虽然 4KB 和 4MB 都 是 磁盘 块 大 小 的 倍数 , 但 是 在 绝 大 多 数 情 况 下 ， 当 主 存 和 磁盘 
之 则 传输 小 块 数据 时 更 高 效 。 


页 描述 符 

内 核 必 须 记录 每 个 页 框 当前 的 状态 。 例 如, 内核 必 须 能 区 分 哪些 页 框 包含 的 3 
的 页 ， 而 哪些 页 框 包 念 的 是 内 核 代码 或 内 核 数 据 。 类 似 地 ， 内核 还 必须 能 够 确定 动态 内 
存 中 的 页 框 是 否 空 闪 。 如 果 动 态 内 存 中 的 页 框 不 包含 有 用 的 数据 , 那么 这 个 页 框 就 是 空 
闲 的 。 在 以 下 情况 下 页 框 是 不 空闲 的 : 包含 用 户 态 进程 的 数据 、 某 个 软件 高 速 缓 存 的 数 
据 、 动 态 分 配 的 内 核 数 据 结构 、 设 备 驱 动 程序 缓冲 的 数据 、 内 核 模 块 的 代码 等 等 。 


页 框 的 状态 信息 保存 在 一 个 类 型 为 page 的 页 描述 符 中 , 其 中 的 字段 如 表 8-1 所 示 。 所 有 
的 页 描述 符 存 放 在 mem_map 数组 中 。 因 为 每 个 摘 j < 度 为 32 字 节 ， 所 以 mem_map 所 
需要 的 空间 上 略 小 于 整个 RAM 的 1 和 %。virt_to_page(laddr) 宏 产生 线性 地 址 aadqr 对 应 
的 页 描述 符 地 址 。pfn_to_page (pfn) 宏 产生 与 页 框 号 Pfn 对 应 的 页 描述 符 地 址 。 
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表 8-1: 页 描述 符 的 字段 


类 型 名 字 说 明 

unsigned long flags -组 标志 (参见 表 8-2)。 也 对 页 框 所 在 的 管 
理 区 进行 编号 

atomic_t _Count 页 框 的 5| 用 计数 器 

atomic 上 _mapcount 页 框 中 的 页 表 项 数目 〈 如 果 没 有 则 为 一 1) 

unsigned long private 可 用 于 正在 使 用 页 的 内 核 成 分 (例如 , 在 组 


冲 页 的 情况 下 它 是 一 个 缓冲 器 头 指 针 , 参见 
第 十 五 章 的 “ 块 缓冲 区 和 缓冲 区 首部 ”一 
节 )。 如 果 页 是 空闲 的 ， 则 该 字段 由 伙伴 系 
统 使 用 (参见 本 章 后 面 ) 


struct mapping 当 页 被 插 和 人 页 高 速 缓存 中 时 使 用 (参见 第 十 

address_space * 五 章 “ 页 高 速 缓存 ”一 节 )， 或 者 当 页 属于 
匿名 区 时 使 用 (参见 第 十 七 章 的 “匿名 页 的 
反 向 映射 ”一 节 ) 

unsigned long index 作为 不 同 的 含义 被 几 种 内 核 成 分 使 用 。 


例如 , 它 在 页 磁盘 映像 或 匿名 区 中 标识 存放 
在 页 框 中 的 数据 的 位 置 (参见 第 十 五 章 )， 
| 或 者 它 存 放 一 个 换 出 页 标识 和 罕 (第 十 七 章 ) 
struct list_head lru 包含 页 的 最 近 最 少 使 用 (LRU) 双向 链表 的 
指针 


你 不 必 现 在 就 完全 理解 页 描述 符 所 有 字段 的 作用 。 在 接 下 来 的 章节 中 , 我 们 常常 会 回 到 
页 描述 符 的 字段 。 此 外 , 有 几 个 字段 的 含义 还 取决 于 页 框 是 否 空闲 及 什么 样 的 内 核 成 分 
在 使 用 页 框 。 


让 我 们 较 详细 地 描述 以 下 两 个 字段 : 


Count 

页 的 引用 计数 器 。 如 果 该 字段 为 1, 则 相应 页 框 空间 ,并 可 被 分 配给 任 一 进程 或 
内 核 本 身 ; 如 果 该 字段 的 值 大 于 或 等 于 0, 则 说 明 页 框 被 分 配给 了 一 个 或 多 个 进程 ， 
或 用 于 存放 一 些 内 核 数据 结构 。page_count () 函数 返回 _count 加 1 后 的 值 ， 
人 

flags 
包含 多 达 32 个 用 来 描述 页 框 状态 的 标志 (参见 表 8-2)。 对 于 每 个 PG_xyz 标 志 ， 
核 都 定义 了 操纵 其 值 的 一 些 宕 。 通常 ，PageXyz 宏 返回 标志 的 值 , 而 Set PageXyz 
和 ClearPageXyz 宕 分 别 设置 和 清除 相应 的 位 。 
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表 8-2: 描述 页 框 状态 的 标志 


标志 名 含义 

PG_locked 页 被 锁定 。 例 如 ， 在 磁盘 L/O 操作 中 涉及 的 页 

PG_error 在 传输 页 时 发 生 LO 错误 

PG_referenceqd 刚刚 访 |9] 过 的 页 

PG_uptodate 完成 读 操 作 后 置 位 ， 除 非 发生 磁 盘 I/O 错误 

PG_dirty 页 已 经 被 修改 (参见 第 十 七 章 的 “PFRA 实现 ”一 节 ) 

PG_liru 页 在 活动 或 非 活动 页 链表 中 [参见 第 十 七 章 的 “最 近 最 少 使 用 
(LRU) 链表 ”一 节 ] 

PG_active 页 在 活动 页 链表 中 [参看 第 十 七 章 的 “最 近 最 少 使 用 (LRU) 链表 ” 
= 

PG_slab 包含 在 slab 中 的 页 框 《 参 见 本 章 后 面 “ 内 存 区 管理 ”一 节 ) 

PG_highmem . 页 框 属于 ZONE_HIGHMEM 管理 区 (参见 本 章 后 面 “ 非 一 致 内 存 访 
问 (NUMA )” 一 市 ) 

PG_checked 由 一 些 文件 系统 (如 Ext2 和 Ext3) 使 用 的 标志 (参见 第 十 八 章 ) 

PG arch 1 在 80x86 体系 结构 上 没有 使 用 

PG _reserved 页 框 留 给 内 核 代码 或 没有 使 用 

PG_private 页 描述 符 的 private 字 段 存放 了 有 意义 的 数据 

PG_writeback 正在 使 用 writepage 方 法 将 页 写 到 磁盘 上 (参见 第 十 六 章 ) 

PG_nosave 系统 挂 起 /唤醒 时 使 用 

PG_compound 通过 扩展 分 页 机 制 处 理 页 框 (参见 第 二 章 的 “扩展 分 页 ”一 节 ) 

PG_swapcache 页 属于 对 换 高 速 缓存 (参见 第 十 七 章 的 “交换 高 速 缓存 ”一 节 ) 

PG_mappedtodisk 页 框 中 的 所 有 数据 对 应 于 磁盘 上 分 配 的 块 

PG_reclaim 为 回收 内 存 对 页 已 经 做 了 写 人 磁盘 的 标记 


PG_nosave_free 系统 挂 起 /恢复 时 使 用 


非 一 致 内 存 访问 (NUMA) 

我 们 习惯 上 认为 计算 机 内 存 是 一 种 均 勺 .共享 的 资源 ,在 忽略 硬件 高 速 缓存 作用 的 情况 
下 ， 我 们 期 望 不 管内 存单 元 处 于 何 处 ， 也 不 管 CPU 处 于 何 处 ，CPU 对 内 存单 元 的 访问 
都 需要 相同 的 时 间 。 可 惜 ， 这 种 假设 在 革 些 体系 结构 上 并 不 总 是 成 立 。 例 如 ， 对 于 某 些 
多 人 处理 器 Alpha 或 MIPS 计算 机 ， 这 就 不 成 立 。 


Linux 2.6 支持 非 一 致 





Fla] (Non-Uniform Memory Access , NUMA) 模型 ， 在 这 
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种 模型 中 , 给 定 CPU 对 不 J 访 ， ff。 系统 的 物理 内 存 被 划分 为 
几 个 节点 (node)。 在 一 个 单独 的 节点 内 ， 任 一 给 定 CPU 访问 页 面 所 需 的 时 间 都 是 相同 
的 。 然 而 ， 对 不 同 的 CPU， 这 个 时 间 可 能 就 不 同 。 对 每 个 CPU 而 言 ， 内 核 都 试图 把 耗 
时 节点 的 访问 次 数 减 到 最 少 ,这 就 要 小 心地 选择 CPU 最 常 引 用 的 内 核 数 据 结构 的 存放 位 
置 ( 注 1)。 





每 个 节点 中 的 物理 内 存 又 可 以 分 为 几 个 管理 区 (Eone), 这 我 们 将 在 下 一 节 介 绍 ,每 个 节 
所 都 有 一 个 类 型 为 pg_datat 上 的 摘 述 符 ， 它 的 字段 如 表 8-3 所 示 。 所 有 节点 的 的 述 符 存 
放 在 一 个 单 向 链表 中 ， 它 的 第 一 个 元 素 由 pgdat_list 变量 指向 。 


表 8-3; 节点 描述 符 的 字段 








类 型 名 字 说 明 

struct Zone t[ | node_zones 节点 中 管理 区 描述 符 的 数组 

struct zonelist_t[ ] node zonelists 页 分 配器 使 用 的 zonelist 数据 结构 的 
数组 (参见 后 面 “内 存 管理 区 ”一 节 ) 

nt nr_zones 节点 中 管理 区 的 个 数 

struct page * node_mem_map 节点 中 页 描述 符 的 数组 

struct bdata 用 在 内 核 初 始 化 阶段 

bootmem data * 

unsigned long node_start_pfn 节点 中 第 一 个 页 框 的 下 标 

unsigned long node_present_pages 内 存 节 点 的 大 小 ， 不 包括 洞 (以 页 框 为 
单位 |) 

unsigned long node_spanned_pages 节点 的 大 小 ， 包 括 洞 (以 页 框 为 单位 ) 

int node_id 节操 标 识 符 

pg_data t * pgdat_next 内 存 节点 链表 中 的 下 一 项 

wait_queue heaqd 上 kswapd wait kswapd 页 换 出 守护 进程 使 用 的 等 待 队 列 
(参见 第 十 七 章 的 “周期 回收 ”一 市 ) 

struct kswapd 指针 指向 kswapd 内 核 线程 的 进程 描述 

task struct * 符 

int kswapd_max_order kswapd 将 要 创建 的 空闲 块 大 小 取 对 数 的 

| 值 

注 |: 另外 ，Linux 内 核 甚 至 在 一 些 特 珠 的 音 处 理 器 条 统 上 使 用 NUMA,，, 这 些 系 统 的 物理 地 址 


空间 中 拥有 巨大 的 “ 洞 "。 内 核 通过 将 有 效 物 理 地 址 的 连续 附属 区 域 分 配给 不 同 的 内 存 节 
点 来 处 理 这 些 体系 结构 。 


NE 


我 们 同样 只 关注 80x86 体 系 结 构 。IBM 兼容 PC 使 用 一 致 访问 内 存 (UMA ) 模型 ， 因 此， 
并 不 真正 需要 NUMA 的 支持 。 然 而 ， 即 使 NUMA 的 支持 没有 编译 进 内 核 ，Linux 还 是 
使 用 节点 ， 不 过 ， 这 是 一 个 单独 的 节点 ， 它 包含 了 系统 中 所 有 的 物理 内 存 。 因 此 ， 
pgdat_list 变 量 指向 一 个 链表 , 此 链表 是 由 一 个 元 素 组 成 的 , 这 个 元 素 就 是 节点 0 描述 
符 ， 它 被 存放 在 contig_page_data 变量 中 。 


在 80x86 结 构 中 ,把 物理 内 存 分 组 在 一 个 单独 的 刷 点 中 可 能 显得 没有 用 处 ， 但 是 ,这 种 
方式 有 助 于 内 存 代码 的 处 理 更 具有 可 移植 性 ,因为 内 核 假定 在 所 有 的 体系 结构 中 物理 内 
存 都 被 划分 为 一 个 或 多 个 ( 注 2)。 


内 存 管 理 区 


在 一 个 理想 的 计算 机 体系 结构 中 ， 一 个 页 框 就 是 一 个 内 存 存储 单元 ， 可 用 于 任何 事情 : 
存放 内 核 数据 和 用 户 数据 . 缓冲 磁盘 数据 等 等 。 任何 种 类 的 数据 页 都 可 以 存放 在 任何 页 
框 中 ， 没 有 什么 限制 。 


但 是 ， 实 际 的 计算 机 体系 结构 有 硬件 的 制约 ， 这 限制 了 页 框 可 以 使 用 的 方式 。 尤 其 是 ， 
Linux 内 核 必 须 处 理 80x86 体系 结构 的 两 种 硬件 约束 : 


。 ISA 总 线 的 直接 内 存 存 取 (DMA 
。 ”在 具有 大 容量 RAM 的 现代 32 位 计算 机 中 ,CPU 不 
为 线性 地 址 空间 太 小 


为 了 应 对 这 两 种 限制 , Linux 2.6 把 的 物理 内 存 划 分 为 3 个 管理 区 (zone)。 
在 30X86 UMA 体系 结 本 中 的 管理 区 为 


2ONE_LDMA 

包含 低 于 16 MB 的 内 存 页 杠 
2UNE_NURMAL 

包含 高 于 16 MB 且 低 于 896 MB 的 内 存 页 框 
ZONE_HIGHMEM 

包含 从 896MB 开始 高 于 896 MB 的 内 存 页 杠 


处 理 器 有 一 个 严格 的 限制 : 它们 只 能 对 RAM 的 






可 所 有 的 物理 内 存 , 因 








注 2; 我 们 还 有 这 种 设计 选择 的 另外 一 个 例子 :即使 硬件 体系 结构 仅 定 义 了 两 级 页 表 ,Linux 也 , 
使 用 四 级 (参见 第 二 阐 “Linux 中 的 分 页 ”一 节 )， 
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ZONE_DMA 区 包含 的 页 框 可 以 由 老式 基于 ISA 的 设备 通过 DMA 使 用 [第 十 三 章 “ 直 接 


内 存 访问 (DMA)” 


ZONE_DMA 和 ZONE_NORMAL 区 包含 内 存 的 “ 常 
性 地 址 空间 的 第 4 个 GB， 内 核 就 可 以 直接 进行 
相反 ，ZONE_HIGHMEM 区 包含 的 内 存 页 不 能 核 直 接 访 问 


一 节 将 进一步 给 


出 详细 的 信息 ] 。 









访 瑟 [参见 第 二 理 的 “内 核 页 表 ”-- “i]s 


尽管 它们 也 线性 地 映射 


到 了 线性 地 址 空间 的 第 4 个 GB (参见 本 章 后 面 “高 端 内 存 页 框 的 内 核 映射 ”一 节 )。 在 


64 位 体系 结构 上 ZONE_HIGHMEM 区 总 是 空 的 。 
每 个 内 存 管理 区 都 有 自己 的 描述 符 。 
表 8-4， 管理 区 描述 符 的 字段 


类 型 
unsigned long 


unsigned long 


unsigned lonyg 


unsigned long 


Unsigned long{] 


Struct 


per_cpu_pageset [ ] 


spinlock 七 


struct free areal[] 


spinlock 七 


struct list head 


struct list head 


i Ee 


名 称 


tree_ pages 


pages_min 


pages_low 


pages_high 


lowmem reserve 


pageset 


lock 


free area 


lru_lock 


active_list 


inactive_ list 


它 的 字段 如 表 8-4 所 示 。 


说 明 

管理 区 中 空间 页 的 数目 

管理 区 中 保留 页 的 数目 (参见 本 

章 后 面 的 “保留 的 页 框 池 ” 一 节 ) 
回收 页 框 使 用 的 下 界 ， 同 时 也 被 

管理 区 分 配器 作为 阅 值 使 用 ( 参 
见 本 章 后 面 的 “管理 区 分 配器 ” 
一 节 ) 

回收 页 框 使 用 的 上 界 ， 同 时 也 被 

管理 区 分 配器 作为 闹 值 使 用 

指明 在 处 理 内 存 不 足 的 临界 情况 
下 每 个 管理 区 必须 保留 的 页 框 数 
目 

数据 结构 用 于 实现 单一 页 框 的 特 

珠 高 速 缓存 (参见 本 章 后 面 的 

“每 CPU 页 框 高 速 缓存 ”一 节 ) 

保护 该 描述 符 的 自 旋 锁 

标识 出 管理 区 中 的 空闲 页 框 志 
(参见 本 章 后 面 的 “伙伴 系统 算 
"一 节 ) 

活动 以 及 非 活动 链表 使 用 的 自 旋 

锁 

管理 区 中 的 活动 页 链表 (参见 第 

十 七 章 ) 

管理 区 中 的 非 活动 页 链表 (参见 

第 十 七 章 ) 


表 8-4: 管理 区 描述 符 的 字段 ( 续 ) 


类 型 


unsigned long 


unsigned long 


unsigned long 
unsigned long 
unsigned long 


工 办 七 


int 


wait_qcqueue head t* 


unsigned long 


unsigned long 


struct 

pglist_data* 
struct page * 
unsigqned long 


unsigned long 


unsigned long 


char* 


名 称 


nr_ scan _active 


nr_scan_inactive 


nr_act1lve 
nr_inactive 


pages_scanned 


all unreclaimable 


temp priority 


prev_priority 


walit_table 


wait table size 


wait table bits 
Zone pogdat 


zonNne_mem_map 
zone_ start pfn 


spanned pages 
present_pages 


TIAMe ‘ 
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说 明 

回收 内 存 时 需要 扫描 的 活动 页 数 

目 (参见 第 十 七 章 的 “内 存 不 中 时 回 
收 ” 一 节 ) 

回收 内 存 时 需要 扫描 的 非 活 动 页 数目 
管理 区 的 活动 链表 上 的 页 数目 

管理 区 的 非 活动 链表 上 的 页 数目 
管理 区 内 回收 页 框 时 使 用 的 计数 器 


在 管理 区 中 填 满 不 可 回收 页 时 此 标志 
被 置 位 

临时 管理 区 的 优先 级 (回收 页 框 时 使 
用 ) 

管理 区 优先 级 ， 范 围 在 12 和 0 之 间 
(由 回收 页 框 算法 使 用 ， 参 见 第 十 七 
章 的 “内 存 紧缺 回收 ”一 节 ) 
进程 等 待 队 列 的 散 列 表 , 这 些 进程 正 
在 等 待 管理 区 中 的 某 页 

等 待 队列 散 列表 的 大 小 

等 待 队 列 散 列表 数组 大 小 ， 值 为 


Jorder 
内 存 市 点 [参见 前 面 的 “ 非 一 致 
内 存 访问 (NUMA) ”一 节 ] 

指向 管理 区 的 第 一 个 页 描述 符 的 指针 
管理 区 第 一 个 页 框 的 下 标 

以 页 为 单位 的 管理 区 的 总 大 小 , 包括 
以 页 为 单位 的 管理 区 的 总 大 小 , 不 包 
括 洞 

指针 指向 管理 区 的 传统 名 称 : 


“DMA " ，NORMAL "或 “HighMem” 


管理 区 结构 中 的 许多 字段 用 于 回收 页 框 ， 相 关内 容 将 在 第 十 七 章 中 描述 。 


每 个 页 描述 符 都 有 到 内 存 节 点 和 到 节点 内 管理 区 (包含 相应 页 框 ) 的 链接 。 为 节省 空间 ， 
这 些 链接 的 存放 方式 与 典型 的 指针 不 同 ， 而 是 被 编码 成 索引 存放 在 flags 字段 的 高 位 。 
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实际 上 , 刻画 页 框 的 标志 的 数目 是 有 限 的 , 因此 保留 flags 字 段 的 最 高 位 来 编码 特定 内 
存 节点 和 管理 区 号 总 是 可 能 的 ( 注 3)。page_zone() 国 数 接收 一 个 页 描述 符 的 地 址 作为 
它 的 参数 ， 它 读 取 页 描述 符 中 flags 字段 的 最 高 位 ， 然 后 通过 查看 zone_table 数 组 来 
确定 相应 管理 区 描述 符 的 地 址 。 在 启动 时 用 所 有 内 存 节点 的 所 有 管理 区 描述 符 的 地 址 初 
始 化 这 个 数组 。 


当 内 核 调 用 一 个 内 存 分 配 函 数 时 , 必须 指明 请 求 页 框 所 在 的 管理 区 。 内 核 通常 指明 它 愿 
意 使 用 哪个 管理 区 。 例如, 如 果 一 个 页 框 必 须 直 接 映射 在 线性 地 址 的 第 4 个 GB, 但 它 又 
不 用 于 ISA DMA 的 传输 ， 那么, 内核 不 是 在 ZONE_NORMRAL 区 就 是 在 ZONE_DMaA 区 请 
求 一 个 页 框 。 当 然 ， 如 果 ZONE_NORMAL 没有 空闲 页 框 ， 那 么 ， 应 该 从 ZONE_DMA 获 
取 页 框 。 为 了 在 内 存 分 配 请 求 中 指定 首选 管理 区 ， 内 核 使 用 zonelist 数据 结构 ， 这 就 
是 管理 区 描述 符 指针 数组 。 


保留 的 页 框 池 

可 以 用 两 种 不 同 的 方法 来 满足 内 存 分 配 请 求 。 如 果 有 足够 的 空闲 内 存 可 用 , 请 求 就 会 被 
立刻 满足 。 否 则 ， 必 须 回收 一 些 内 存 ， 并 且 将 发 出 请 求 的 内 核 控制 路 径 阻塞 ， 直 到 有 内 
存 被 释放 。 





六 存 时 ， 一 些 内 核 控制 路 径 不 能 被 阻塞 一 一 例如， 这 种 情况 发 生 在 处 理 
中 断 或 在 执行 临界 区 内 的 代码 时 。 在 这 些 情况 下 , 一 条 内 核 控制 路 径 应 当 产 生 原子 内 存 
分 配 请 求 (使 用 GFP_ATOMIC 标志: 参见 稍 后 的 “分 区 页 框 分 配器 ”一 节 )。 原 子 请 求 
从 不 被 阻塞 ; 





尽管 无 法 保证 一 个 原子 内 存 分 配 请 求 决 不 失败 ,但 是 内 核 会 设法 尽量 减少 这 种 不 幸 事件 
发 生 的 可 能 性 。 为 做 到 这 一 点 , 内核 为 原子 内 存 分 配 请 求 保留 了 一 个 页 框 地 ， 只 有 在 内 
存 不 足 时 才 使 用 。 

保留 内 存 的 数量 (LKB 为 单位 ) 存放 在 min_free_kbytes 变量 中 。 它 的 初始 值 在 内 核 
初始 化 时 设置 ， 并 取决 于 直接 映射 到 内 核 线性 地 址 空间 第 4 个 GB 的 物理 内 存 的 数量 
一 一 也 就 是 说 , 取决 于 包含 在 ZONE_DMA 和 ZONE_NORMAL 内 存 管理 区 内 的 页 框 数目 : 





注 3; 为 索引 保留 的 位 的 数目 取决 于 内 核 是 否 支 持 NUMA 模型 以 及 flags 字段 的 大 小 。 如 果 不 
支持 NUMA ， 那么 flags 字段 中 管理 区 索引 占 两 位 ， 节 点 索引 占 一 位 (通常 设 为 0)。 在 
NUMA 32 位 体系 结构 上 , flags 中 管理 区 索引 占 两 位 ,节点 数目 占 六 位 ,最 后 , 在 NUMA 
64 位 体系 结构 上 ，64 位 的 flags 字段 中 管理 区 索引 占 两 住 ， 节 点 数目 占 十 位 。 
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保留 池 的 大 小 =LV16 x 直接 映射 内 存 」 (KB ) 


但 是 ，min_free_kbvtes 的 初始 值 不 能 小 于 128 也 不 能 大 于 65536 ( 注 4)。 


ZONE_DMA 和 ZONE_NORMRATL 内 存 管 理 区 将 一 定数 量 的 页 框 贡 献 给 保留 内 存 , 这 个 数目 
与 两 个 管理 区 的 相对 大 小 成 比例 。 例 如 ， 如 果 ZONE_NORMRAL 管理 区 比 ZONE_DMR 大 
8 倍 ， 那 么 页 框 的 7/8 从 ZONE_NORMAL 获得 ， 而 1/8 从 ZONE_DMA 获得 。 


管理 区 描述 符 的 pages_min 字 段 存 储 了 管理 区 内 保留 页 框 的 数目 。 正 如 我 们 将 在 第 十 七 
章 看 到 的 ,这 个 字段 和 pages_low. pages_high 字 段 一 起 还 在 页 框 回 收 算法 中 起 作用 。 
pages_low 字段 总 是 被 设 为 pages_min 的 值 的 5/4,， 而 pages_high 总 是 被 设 为 
pages_min 的 值 的 3/2， 


分 区 页 框 分 配 善 


被 称 作 分 区 页 框 分 配器 (zoned page frame allocator) 的 内 核子 系统 ， 处 理 对 连续 页 框 
组 的 内 存 分 配 请 求 。 它 的 主要 组 成 如 图 8-2 所 示 。 


管理 区 分 配器 





ZONE_DMA 内存 管 理 区 ZONE_NORMAL 内 存 管 理 区 ZONE_HIGHMEM 内 存 管 理 
图 8-2; 分 区 页 框 分 配器 的 组 成 


其 中 ,名 为 “管理 区 分 配器 ”部 分 接受 动态 内 存 分 配 占 请 求 . 在 请 求 分 配 的 情况 
下 , 该 部 分 搜索 一 个 能 满足 所 请 求 的 一 组 连续 页 框 内 存 的 管理 区 (参见 后 面 的 “管理 区 





六 4: 梢 后 系 络 管理 员 可 以 通过 写 入 /proc/sys/vmA/min_free_kbyIes 广 和 件 直通 过 发 出 一 个 适当 的 
syScE1l() 系统 调 用 来 更 改 保 留 内 存 的 数量 。 
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分 配器 ”一 节 )。 在 每 个 管理 区 内 , 页 框 被 名 为 伙伴 系统 ”( 参 见 后 面 的 “伙伴 系统 算法 ” 
一 市 ) 的 部 分 来 处 理 。 为 达到 更 好 的 系统 性 能 ， 一 小 部 分 页 框 保留 在 高 速 缓存 中 用 于 快 


速 地 满足 对 单个 页 框 的 分 配 请 求 (参见 后 面 的 “每 CPU 页 框 高 速 缓存 ”一 节 )。 


请 求 和 释放 页 杠 
可 以 通过 6 个 稍 有 差别 的 函数 和 宏 请 求 页 框 。 除 非 另 作 说 明 ， 一 般 情况 下 ， 它 们 都 返回 
第 一 个 所 分 配 页 的 线性 地 址 ， 或 者 如 果 分 配 失 败 ， 则 返回 NULL。 


alloc pages (gfp_ mask, order) 
用 这 个 函数 请 求 2"*" 个 连续 的 页 框 , 它 返回 第 一 个 所 分 配 页 框 描述 符 的 地 址 , 或 者 
如 果 分 配 失 败 ， 则 返回 NULL。 

alloc page (gfp_mask) 
用 于 歼 得 一 个 单独 页 框 的 宏 ， 它 扩展 为 : 


alloc pages (gfp mask, D0) 


它 返回 所 分 配 页 框 描述 符 的 地 址 ， 或 者 如 果 分 配 失败 ， 则 返回 NULL。 
__get_free pages {gfp_mask,order) 

该 函数 类 似 于 alloc_pages()， 但 它 返 回 第 一 个 所 分 配 页 的 线性 地 址 。 
__get_free page(lgfp_mask) 

用 于 获得 一 个 单独 页 框 的 宏 ， 它 扩展 为 : 


__get_ free_pagaes (gfp_ mask, 3) 


get_zeroed page (gfp_ mask!} 
国 数 用 来 获取 填 久 0 的 页 框 ， 它 调用 


alloc pages (9EP_maskK | __GFP ZERO, 0) 


然后 返回 所 获取 页 框 的 线性 地 址 。 
__get_dma _ pages{lgftp_ mask, order) 
用 这 个 宕 获得 适用 于 DMA 的 页 框 ， 它 扩展 为 : 
__get_free pageslgfp_mask | __ceFP DMA, order)} 


参数 gfp_mask 是 一 组 标志 , 它 指明 了 如 何 寻找 空闲 的 页 框 。 能 在 gfp_mask 中 使 用 的 标 
志 如 表 8-5 所 示 。 
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表 8-5; 用 于 请 求 页 框 的 标志 


标志 说 明 

__GFP_DMA 所 请 求 的 页 框 必 须 处 于 ZONE_DMRA 管理 区 。 等 价 于 SFP_DMA 

__GFP_HIGHMEM 所 请 求 的 页 框 处 于 ZONE_HIGHMEM 管理 区 

__GFF_WAIT 允许 内 核对 等 待 空间 页 框 的 当前 进程 进行 阻塞 

__GFP_HIGH 允许 内 核 访 问 保留 的 页 框 池 

__GFP_IO 允许 内 村 在 低 端 内 存 页 上 执行 MO 传输 以 释放 页 框 

__GFP_FS 如 果 清 0， 则 不 允许 内 核 执行 依赖 于 文件 系统 的 操作 

-GFP CALD 所 请 求 的 页 框 可 能 为 “ 冷 的 ” (参见 稍 后 的 “每 CPU 页 框 高 速 缓存 ” 
= 

__GFP_NOWARN 一 次 内 存 分 配 失 败 将 不 会 产生 警告 信息 

__GFP_ REPEAT 内 核 重 试 内 存 分 配 直 到 成 功 

__GFP_NOFAIL 与 _GFP_REPEAT 相同 

__GFP_NORETRY -次 内 存 分 配 失 败 后 不 再 重 试 

__GFP_NO_GROW slab 分 配器 不 允许 增 大 slab 高 速 缓存 (参见 稍 后 的 “slab 分 配器 ”一 
节 ) 

Fb COME 属于 扩展 页 的 页 框 (参见 第 二 章 的 “扩展 分 页 ”一 节 ) 

-_GFP_ZERO 任何 返回 的 页 框 必须 被 填 满 0 


实际 上 , Linux 使 用 预定 义 标 志 值 的 组 合 ， 如 表 8-6 所 示 , 组 名 就 是 你 在 5 个 页 框 分 配 国 ' 
数 中 所 遇 到 的 参数 。 


表 8-6: 用 于 请 求 页 框 的 一 组 标志 值 


组 名 相应 标志 
GFP_ATOMIC __GFP_HIGH 
GFP_NOIO __GFP_WAIT 
GFP_NOFS __GFP WAIT |__GFP_IO 
GFP_KERNEL __GFP WAIT |__GFP_IO |__GFP_FS 
GFP_USER __GFP_WAIT |,__GFP_IO |__GFP_FS 
| __GFP_IO |__GFP_FS_ |_GFP_HIGHMEM 


GPFP_HIGHUSER __GFP_WAIT 


__GFP_DMA 和 __GFP_HIGHMEM 标 志 被 称 作 管理 区 修饰 符 ; 它们 标示 寻找 空间 页 框 时 内 
核 所 搜索 的 管理 区 。contig_page_data 节点 描述 符 的 node_zonelists 字段 是 一 个 管 
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理 区 描述 符 链表 的 数组 ， 它 代表 后 备 管 理 区 : 对 管理 区 修饰 符 的 每 一 个 设置 , 相应 的 链 
表 包 含 的 内 存 管 理 区 能 在 原来 的 管理 区 缺少 页 框 的 情况 下 被 用 于 满足 内 存 分 配 请 求 。 在 
80x86 UMA 体系 结构 中 ， 后 备 管 理 区 如 下 : 


。 “如果 __GFP_DMA 标志 被 置 位 ， 则 只 能 从 ZONE_DMA 内 存 管 理 区 获取 页 框 。 

， ”否则 ,如果 _ _GFP_HIGHMEM 标 志 没 有 被 置 位 , 则 只 能 按 优先 次 序 从 ZONE_NORMRAL 
和 ZONE_DMA 内 存 管理 区 获取 页 框 。 

。 ”否则 (__GFP_HIGHMEM 标志 被 置 位 )， 则 可 以 按 优先 次 序 从 ZONE_HIGHMEM、 
ZONE_NORMAL 和 ZONE_DMA 内 存 管理 区 获得 页 框 。 


下 面 4 个 函数 和 宏 中 的 任 一 个 都 可 以 释放 页 框 : 


__free pages (page, order) 
该 六 数 先 检查 page 指 向 的 页 描述 符 如 果 该 页 框 未 被 保留 (PG_reserved 标 志 ; 
0)， 就 把 描述 符 的 count 字段 减 1。 如 果 count 值 变 为 0， 就 假定 从 与 page 对 
应 的 页 框 开 始 的 2"“" 个 连续 页 框 不 再 被 使 用 。 在 这 种 情况 下 , 该 函数 释放 页 框 , 正 
如 后 面 的 “管理 区 分 配器 ”一 节 描 述 的 那样 。 
free pages {taddr, order) 
这 个 函数 类 似 于 __free_pages (page，order) ,但 是 它 接收 的 参数 为 要 释放 的 第 
一 个 页 框 的 线性 地 址 aadar。 
_tree_PaGe Page) 
这 个 宏 释 放 page 所 指 描述 符 对 应 的 页 框 ， 它 扩展 为 ; 


__free pages lpage, 0) 


Ca 


free_ page (addr) 
该 宏 释 放 线 性 地 址 为 aaadr 的 页 框 。 它 扩展 为 ， 


free pages laddr.,o0) 


高 端 内 存 页 框 的 内 核 映 射 


与 直接 映射 的 物理 内 存 末 端 .高 端 内 存 的 始 端 所 对 应 的 线性 地 址 存放 在 high_memory 变 
量 中 ， 它 被 设置 为 896MB。896MB 边界 以 上 的 页 框 并 不 映射 在 内 核 线性 地 址 空间 的 第 
4 个 GB, 因此 , 内核 不 能 直接 访问 它们 。 这 就 意味 着 ,返回 所 分 配 页 框 线性 地 址 的 页 分 
配器 函数 不 适用 于 高 端 内 存 ， 即 不 适用 于 ZONE_HIGHMEM 内 存 管 理 区 内 的 页 框 。 





例如 ， 假 定 内 核 调 用 __get_free_pages (GFP_HIGHMEM,0) 在 高 端 内 存 分 配 一 个 页 框 。 
如 果 分 配器 在 高 端 内 存 确实 分 配 了 一 个 页 枢 , 那么 _ _get_free_pages1{) 不 能 返回 它 的 
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线性 地 址 ， 因 为 它 根 本 就 不 存在 ， 因 此 ， 国 数 返 回 NULL。 依 次 类 推 ， 内 核 不 能 使 用 这 
个 页 框 ， 黄 至 更 坏 的 情况 下 ， 也 不 能 释放 该 页 框 ， 因 为 内 核 已 经 丢失 了 它 的 踪迹 。 


在 64 位 硬件 平台 上 不 存在 这 个 问题 ， 因为 可 使 用 的 线性 地 址 空间 远大 于 能 安装 的 RAM 

大 小 ， 简 言 之 ， 这 些 体系 结构 的 ZOQN 蚌 空 的 。 但 是 在 32 位 平台 
上 ， 如 80x86 体系 结构 ， Linux 设计 者 不 得 不 找到 某 种 方法 来 允许 内 核 使 用 所 有 可 使 用 
的 RAM， 达 到 PAE 所 支持 的 64GB。 采 用 的 方法 如 下 : 





。 高端 内 存 页 框 的 分 配 只 能 通过 alloc_pages() 函数 和 它 的 快捷 函数 alloc_page |()。 
这 些 函 数 不 i 页 框 的 线性 地 址 , 因为 如 果 该 页 框 属于 高 端 内 存 , 那 
么 这 样 的 线性 地 址 根本 不 存在 。 取而代之, 这 些 国 数 返 回 第 一 个 被 分 下 可 
述 符 的 线性 地 址 .这 些 线性 地 址 总 是 存在 的 , 因为 所 有 页 描述 符 一 旦 被 分 配 在 低 端 
内 存 中 ， 它 们 在 内 核 初 始 化 阶段 就 不 会 改变 。. 

。 ”没有 线性 地 址 的 高 端 内 存 中 的 页 框 不 能 被 内 核 访问 ,因此 , 内核 线 性 地 址 空间 的 最 
后 128MB 中 的 一 部 分 专门 用 于 映射 高 洲 内 存 页 杠 。 当 然 , 这 种 映射 是 暂时 的 , 否 
则 只 有 128MB i nl TE 












页 框 映射 到 高 端 内 存 ; 分 别 叫 做 永久 内 核 映射 、 临 时 内 
核 映射 及 非 连 续 内 存 分 配 。 在 本 节 中 , 我们 集中 于 前 两 种 技术 ; 第 三 种 技术 将 在 本 章 后 
面 “ 非 连续 内 存 区 管理 ”一 节 进 行 讨论 。 


建立 永久 内 核 映 射 可 能 阻塞 当前 进程 , 这 发 生 在 空闲 页 表 项 不 存在 时 , 也 就 是 在 高 端 内 
存 上 没有 页 表 项 可 以 用 作 页 框 的 “窗口 ”时 。 因 此 ,永久 内 核 映 射 不 能 用 于 中 断 处 理 程 


序 和 可 延迟 尔 数 。 相 反 ， 建立 临时 内 核 映 \ 会 要 求 阻 塞 当前 进程 ; 不过， 它 的 缺点 
是 只 有 很 少 的 临时 内 核 映 射 可 以 同时 建立 起 来 。 





使 用 临时 内 核 映 射 的 内 核 控制 路 径 必 须 保 证 当前 疫 有 其 他 的 内 核 控制 路 径 在 使 用 同样 的 
映射 。 这 意味 着 内 核 控 制 路 径 永远 不 能 被 阻塞 , 否则 其 他 内 核 控制 路 径 有 可 能 使 用 同一 
个 窗口 来 映射 其 他 的 高 端 内 存 页 。 


当然 , 这些 技 术 中 没有 一 种 可 以 确保 对 整个 RAM 同时 进行 寻 址 。 毕 竟 ， 只 有 128MB 的 
线性 地 址 留 给 映射 高 端 内 存 ， 尽 管 PAE 支持 系统 高 达 64GB RAM.， 
ET 


永久 内 核 映 射 

永久 内 核 映射 允许 内 相 鱼 端 页 框 到 内 村 地 址 空间 的 长 期 映射 ,它们 使 用 主 内 核 页 表 
中 一 一 个 专门 的 页 表 ， 其 地 址 存放 在 pkmap_page_table 变量 中 。 页 表 中 的 表 项 数 由 
LAST_PKMAP 宏 产 生 。 页 表 照 样 包 含 512 或 1024 项 ， 这 取决 于 PAE 是 否 被 沿 活 [参见 
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第 二 章 “ 物 理 地 址 扩展 (PAE) 分 页 机 制 ” 一 节 ]; 因此 , 内 核 一 次 最 多 访问 2MB 或 4MB 
的 高 端 内 存 。 


该 员 表 映射 的 线性 地 址 从 PKMAP_BASE 开始 。pkmap_count 数组 包含 LAST_PKMAP 个 
计数 器 ，pkmap_page_table 页 表 中 的 每 一 项 都 有 一 个 。 我 们 区 分 以 下 三 种 情况 : 


计数 属 为 0 
对 应 的 页 表 项 没有 映射 任何 高 端 内 存 页 械 ， 并 且 是 可 用 的 。 

计数 器 为 1 
对 应 的 页 表 项 没有 了 映射 任何 高 端 内 存 页 框 ,但 是 它 不 能 使 用 , 因为 自从 它 最 后 一 次 
使 用 以 来 ， 其 相应 的 TLB 表现 还 未 被 刷新 。 

评 数 妖 为 n (远大 于 7) 
相应 的 页 表 项 映射 一 个 高 端 内 存 页 框 , 这 意味 着 正好 有 mn-1 个 内 核 成 分 在 使 用 这 个 
页 框 。 


为 了 记录 高 端 内 存 页 框 与 永久 内 核 映 射 包 含 的 线性 地 址 之 则 的 联系 ， 内 核 使 用 了 

page_address_htable 散 列表 。 读 表 包含 一 个 page_address_map 数 据 结 构 , 用 于 为 高 

端 内 存 中 的 每 一 个 页 框 进行 当前 映射 ,而 该 数据 结构 还 包含 一 个 指向 页 描述 符 的 指针 和 
配给 该 页 框 的 线性 地 址 。 


,如 果 页 框 在 高 端 内 存 中 并 且 没 有 被 映射 ， 
受 一 个 页 描述 符 指针 page 作 为 其 参数 ， 并 区 分 以 下 两 种 情况 : 


1. 如 果 页 框 不 在 高 端 内 存 中 (PG_highmem 标 志 为 0), 则 线性 地 址 总 是 存在 并 且 是 通 
过 计算 页 框 下 标 , 然后 将 其 转换 成 物理 地 址 , 最 后 根据 相应 的 物理 地 址 得 到 线性 地 
址 。 这 是 由 下 面 的 代码 完成 的 ; 


__valtunsigned long})} (page = mem map}) << 12) 





page_address () 国 数 返 回 页 框 对 应 的 
则 返回 NULL 。 这 个 国 





2. ”如 果 页 框 在 高 端 内 存 (PG_highmem 标 志 为 1) 中 ,该 函数 就 到 page_address_htable 
散 列 表 中 查找 。 如 果 在 散 列 表 中 找到 页 框 , page_address() 就 返回 它 的 线性 地 址 ， 
否则 返回 NULL。 


kmap ( ) 函数 建立 永久 内 核 映 射 。 本 质 上 它 等 价 于 下 列 代 码 : 


void * kmaplstruct page * page) 
{ 
if ‘!PageHighMem (page}) 
return page address (Ipage): 
return kmap_ highlpage}:; 
} 


NI  _ 机 


如 果 页 框 确实 属于 高 端 内 存 , 则 调用 kmap_high () 国 数 。 这 个 函数 本 质 上 等 价 于 下 列 代码 : 


Void * kmap_highistruct page * page) 
{ 
unsignec long vaddr:; 
spin_lock (gkmap_lock}.; 
vaddr = (unsigned long) page->virtual; 
if (!vaddr) 
vaddr = map new _ virtual (pagel); 
bkmap_count [vaddr-PKRMAP_ BASE) »»> PAGE_SHIFT|++} 
spin unlock(&kmap_lock).; 
return {void *}) vaddr:; 


} 


该 函数 获取 map_lcck 自 旋 锁 ,以 保护 页 表 免 受 多 处 理 器 系统 上 的 并 发 访问 。 注意, 没有 
必要 禁止 中 断 , 因为 中 断 处 理 程序 和 可 延迟 函数 不 能 调用 kmap () 。 接 下 来 , kmap_high() 
国 数 检查 页 框 是 否 已 经 通过 调用 Page_address ( ) 被 映射 。 如 果 不 是 ， 该 国 数 调用 
map_new_virtual{) 函 数 把 页 框 的 物理 地 址 插 和 人 到 pkmap_page_table 的 一 个 项 中 并 在 
page_address_htable 散 列表 中 加 入 一 个 元 素 。 然后 , kmap_high() 使 页 框 的 线性 地 址 所 
对 应 的 计数 器 加 1 来 将 调用 该 函数 的 新 内 核 成 分 考虑 在 内 。 最 后 ，kmap_high() 释 放 
kmap_lock 自 旋 锁 并 返回 对 该 页 框 进行 映射 的 线性 地 址 。 


map_new_virtual () 国 数 本 质 上 执行 两 个 戏 套 循环 : 


下 
int COunt ， 
DECLARE WAITOQUEUE (wait, current}):; 
far (count = LAST_PKMAP; count »0; -=--count} 1 
last_pkmap_nr = (last_pkmap_ nr + 1) & (LAST PREMAP - 1); 
if 1!iijast pkmap nr) 1 
flush all_zero pkmaps{}:; 
COUnNt = LAST PKMAP; 
} 
if iipkmap_count lilast pkmap nr) 1 
unsigned long vaddr = PFMAP BASE + 
(last_prkmap_nr << PAGE_SHIFT): 
set_ ptelg lpkmap page_ table[llast pkmap_nr]!}, 
mk ptetpage, _ _pgprot (Ox623}))}); 
pkmap_count [last_pkmap nr] = 1; 
set_ page address lpage, (void *) vaddr); 
return vaddr:; 
} 
CUrrent->state = ThASK _ UNITERRUPTIBLE:; 
add _ wait_gqueue(&pkmap_ map wait, &wait).:; 
Spin nlock tgkkmap_lock); 
schedule1}.; 
remove wait_gqyueyue(&pkmap map_ wait, &wait): 
spin_lock(&kmap_lock}:; 
if ‘page_ address (page}) 
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return (tunsigned long) page address (page):; 
} 


在 内 循环 中 ， 该 函数 扫描 pkmap_count 中 的 所 有 计数 器 直到 找到 一 个 空 值 。 当 在 
pkmap_count 中 找到 了 一 个 未 使 用 的 项 时 , 大 的 if 代码 块 运行 。 这 段 代 码 确 定 该 项 对 应 的 
线性 地 址 ,为 它 在 pkmap_page_table 页 表 中 创建 一 个 项 , 将 count 置 1， 因为 该 项 现在 已 
经 被 使 用 了 ,调用 set_page_address |() 函数 插入 人 一 个 新 元 素 到 page_address_htable 散 
列表 中 ， 并 返回 线性 地 址 。 


国 数 从 土 次 停止 的 地 方 开始 ， 穿 越 Ppkmap_coeunt 数组 执行 循环 。 这 是 国 数 通过 将 
pkmap_page_table 页 表 中 上 次 使 用 过 页 表 项 的 索引 保存 在 一 个 名 为 last_pkmap_nr 的 变 
量 中 做 到 和 的。 因此 , 搜索 从 上 次 因 调 用 map_new_virtual1) 国 数 而 跳出 的 地 方 重 新 开始 。 


当 在 pkmap_count 中 搜索 到 最 后 一 个 计数 器 时 ， 就 又 从 下 标 为 0 的 计数 器 重新 开始 搜索 。 
不 过 ,在 继续 之 前 , map_new_virtual () 调 用 flush_al1_zero_plkamaps () 困 数 来 开始 寻找 
计数 器 为 1 的 另 一 趟 扫描 。 每 个 值 为 1 的 计数 器 都 表示 在 pkmap_page_table 页 表 中 表 项 是 
空间 的 , 但 不 能 使 用 , 因为 相应 和 的 TLB 表 项 还 没有 被 刷新 。flush_all_zero_pkmaps() 把 
它们 的 计数 器 重 置 为 0， 删 除 page_address_htable 散 列 表 中 对 应 的 元 素 ， 并 在 
pkmap_page_table 的 所 有 项 上 进行 TLB 刷新 。 


如 果肉 循环 在 pkmap_count 中 没有 找到 空 的 计数 器 , map_new_virtual () 国 数 就 阻塞 当前 进 
程 ， 直 到 某 个 进程 释放 了 pkmap_page_table 页 表 中 的 一 个 表 项 。 通 过 把 current 插入 到 
pkmap_map_wait 等 待 队 列 , 把 current 状 态 设 置 为 TASK_UNINTERRUPTIBIE 并 调用 schedule() 
放弃 CPU 来 达到 此 目的 。 一 旦 进程 被 唤醒 ,该 函数 就 通过 调用 page_address () 检 查 是 否 存 
在 另 一 个 进程 已 经 映射 了 该 页 ， 如 果 还 没有 其 他 进程 映射 该 页 ， 则 内 循环 重新 开始 。 


kunmap1{) 函数 撤销 先前 由 kmap() 建 立 的 永久 内 核 映 射 。 如 果 页 确实 在 高 端 内 存 中 ， 则 
调用 kunmap_hign1() 国 数 ， 它 本 质 上 等 价 于 下 列 代码 : 


VOlId kunmap _ highlstruct page * Dagel 
{ 
spin_lock{&kmap_lock); 
i (tt--pkmap_count [((unsigned longlpage_address (page) 
-PKMAP_BASE}) >>PAGE _ SHIFT]) == 1) 
if twaitoueue activel&gpknap map wait})) 
wake_up{&Dpkmap_map_wait}):; 
spin Unlock (gkmap_lock); 
} 


中 括号 内 的 表达 式 从 页 的 线性 地 址 计算 出 pkmap_count 数 组 的 索引 。 计数 器 被 减 1 并 与 
1 相 比 。 匹 配 成 功 表明 疫 有 进程 在 使 用 页 。 该 函数 最 终 能 唤醒 由 mapP_new_virtual () 添 
加 在 等 待 队列 中 的 进程 (如 果 有 的 话 )。 
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临时 内 核 映 射 
临时 内 核 映射 比 永 入内 核 映射 的 实现 要 简单 ; 此 外 , 它们 可 以 用 在 中 断 处 理 程序 和 可 延 
迟 函 数 的 内 部 ， 因 为 它们 从 不 阻塞 当前 进程 ， 


在 高 端 内 存 的 任 一 页 框 都 可 以 通过 一 个 “窗口 ” (为 此 而 保留 的 一 个 页 表 项 ) 映射 到 内 
核 地 址 空间 。 留 给 临时 内 核 映射 的 窗口 数 是 非常 少 的 。 


每 个 CPU 都 有 它 自己 的 包含 13 个 窗口 的 集合 . 它们 用 enum km_type 数 据 结构 表示 。 该 
数据 结构 中 定义 的 每 个 符 县 ， 如 KM_BOUNCE_READ、KM_USER0 或 KM_PTE0， 标 识 
了 窗口 的 线性 地 址 。 


内 核 必 须 确保 同一 窗口 永 不 会 被 两 个 不 同 的 控制 路 径 同 时 使 用 。 因 此 ，km_type 结 构 中 
的 每 个 符号 只 能 由 一 种 内 核 成 分 使 用 ， 并 以 读 成 分 命名 。 最 后 一 个 符号 KM_TYPE_NR 本 
身 并 不 表示 一 个 线性 地 址 ， 但 由 每 个 CPU 用 来 产生 不 同 的 可 用 窗口 数 。 


在 km_type 中 的 每 个 符号 (除了 最 后 一 个 ) 都 是 固定 映射 的 线性 地 址 的 一 个 下 标 (参见 
第 二 章 “ 固 定 映 射 的 线性 地 址 ”一 节 )。enum fixed_addresses 数据 结构 包含 符号 
FIX_KMAP_BEGIN 和 FIX_KMAP_END， 把 后 者 赋 给 下 标 FIX_KMAP_BEGIN+ (KM_TYPE_ 
NR*NR_CPUS) -1。 在 这 种 方式 下 ， 系 统 中 的 每 个 CPU 都 有 KM_TYPE_NR 个 固定 映射 的 线性 
地 址 。 此 外 ,内核 用 fix_to_virt (FIX_KMAP_BBRSIN) 线 性 地 址 对 应 的 页 表 项 的 地 址 初始 化 
kmap_pte 变量。 


为 了 建立 临时 内 核 映 射 ， 内 核 调用 kmap_atomicf) 国 数 ， 它 本 质 上 等 价 于 下 列 代码 : 


Void * kmap_atomic(lstruct page * Page, enum km_type typel 
{ 

enum fixed addresses idx: 

unsigned long vaddr:; 


CUurrent <hread_infto(l})}->preempt_ count++;} 
if {li!PageHighMem{!page!)) 

return page address (page); 
idx = type + KM_TYPE_NR * smp_processor_id{): 
vaddr = Fix to _ virt(FIX KMAP_ BEGIN + idx}:; 
set_ ptelkmap pte-idx, mk_ptelpage, Ox063));} 
__flush tlb singlelvaddr}); 
return (vold *}) vaddr.; 


} 
type 参数 和 CPU 标识 符 (通过 smp_processor_id()) 指定 必须 用 哪个 固定 映射 的 线 
性 地 址 映射 请 求 页 。 如 果 页 框 不 属于 高 端 内 存 ， 则 该 函数 返回 页 框 的 线性 地 址 ， 否则 ， 


用 页 的 物理 地 址 及 Present、Accessed、Read/Write 和 Dirty 位 建立 该 固定 映射 的 线 
性 地 址 对 应 的 页 表 项 。 最 后 , 读 函 数 刷 新 适当 的 TLB 项 并 返回 线性 地 址 。 
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为 了 撤销 临时 内 核 映 射 ， 内 核 使 用 kunmap_atomic{) 函 数 。 在 80x86 结 构 中 ,这 个 消 数 
减少 当前 进程 的 preempt_count 因此 , 如 果 在 请 求 临 时 内 核 映像 之 前 能 抢占 内 核 控 制 
路 径 ， 那么 在 同一 个 映射 被 撤销 后 可 以 再 次 抢占 。 此 外 ，kunmap_atomic1) 检 查 当 前 进 
程 的 TIF_NEED_RESCHED 标志 是 否 被 置 位 ， 如 果 是 ， 就 调用 schedule()。 


伙伴 系统 算法 

内 核 应 该 为 分 配 一 组 连续 的 页 框 而 建立 一 种 健壮 、 高 效 的 分 配 策略 。 为 此 ,必须 解决 著 
名 的 内 存 管理 问题 ， 也 就 是 所 谓 的 外 碎片 _ yenternal fresmentation). 有 频 荣 地 请 求 和 各 
放 不 同 大 小 的 一 组 连续 页 框 ,必然 导致 ; , 

由 此 带 来 的 问题 是 , 即使 有 是 够 的 空 闻 页 框 可 以 满足 请 求 ， 但 要 分 配 一 个 大 块 的 连续 页 
框 就 可 能 无 法 满足 。 









从 本 质 上 说 ， 避 免 外 碎片 的 方法 有 两 种 : 


。 “利用 分 页 单元 把 一 组 非 连续 的 空 亲 页 框 映射 到 连续 的 线性 地 址 区 间 。 


* “开发 一 种 适当 的 技术 来 记录 现存 的 空闲 连续 页 框 块 的 情况 ,以 尽量 避免 为 满足 对 小 
块 的 请 求 而 分 割 大 的 空间 块 。 


基于 以 下 三 种 原因 ， 内 核 首选 第 二 种 方法 : 


*。 “在 某 些 情况 下 , 连续 的 页 框 确 实 是 必要 的 , 因为 连续 的 线性 地 址 不 足以 满足 请 求 。 
DMA ee (参见 第 十 三 章 )。 因 
,个 磁 的 数据 时 ，DMA 忽略 分 页 单元 而 
必须 位 于 连续 的 页 框 中 。 
*。， “即使 连续 页 框 的 分 配 并 不 是 很 必要 ,但 它 在 保持 内 核 页 表 不 变 方面 所 起 的 作用 也 是 
不 容 忽视 的 。 修 改 页 表 会 怎样 呢 ? 从 第 二 章 我 们 知道 , 频繁 地 修改 页 表 势 必 导 致 平 
均 访问 内 存 次 数 的 增加 ， 因 为 这 会 使 CPU 频繁 地 刷新 转换 后 援 缓冲 器 (TLB) 的 
内 容 。 
* 内 核 通 过 4MB 的 页 可 以 访问 大 块 连续 的 物理 内 存 。 这 样 减少 了 转换 后 援 缓 仲 器 的 失 
效率 ,因此 提高 了 访问 内 存 的 平均 速度 [参见 第 二 章 “ 转 换 后 援 缓 冲 器 (TLB) ”一 
节 ]3 








Linux 来 用 著名 的 伙伴 系统 (buddy system) 算法 来 解决 外 碎片 问题 。 把 所 有 的 空闲 页 
框 分 组 为 11 个 块 链表 , 每 个 块 链表 分 别 包含 大 小 为 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 
和 1024 个 连续 的 页 框 。 对 1024 个 页 框 的 最 大 请 求 对 应 着 4MB 大 小 的 连续 RAM 块 。 每 
个 块 的 第 一 个 页 框 的 物理 地 址 是 该 块 大 小 的 整数 倍 。 例如 , 大 小 为 16 个 页 框 的 块 , 其 起 
始 地 址 是 16 x 2” (2”* = 4096， 这 是 一 个 常规 页 的 大 小 ) 的 倍数 。 


NA a 


我 们 通过 Eo 
i Te 


假设 要 请 求 一 个 256 个 页 框 的 块 ( 即 1MB)。 算 法 先 在 256 个 页 框 的 链表 中 检查 是 否 有 
一 个 空闲 块 。 如 果 没 有 这 样 的 块 ， 算 法 会 查找 下 一 个 更 大 的 页 块 ， 也 就 是 , 在 512 个 页 
框 的 链表 中 找 一 个 空间 块 。 如 果 存 在 这 样 的 块 ， 内 核 就 把 256 的 页 框 分 成 两 等 份 ， 一 半 
用 作 满 足 请 求 ， 另 一 半 插 入 到 256 个 页 框 的 链表 中 。 如 果 在 512 个 页 框 的 块 链表 中 也 没 
找到 空闲 块 , 就 继续 找 更 大 的 块 一 一 1024 个 页 框 的 块 。 如 果 这 样 的 块 存在 , 内 核 把 1024 
个 页 框 块 的 256 个 页 框 用 作 请 求 ,然后 从 剩余 的 768 个 页 框 中 拿 512 个 插入 到 512 个 页 
框 的 链表 中 , 再 把 最 后 的 256 个 插入 到 256 个 页 框 的 链表 中 。 如 果 1024 个 页 框 的 链表 还 
是 空 的 ， 算 法 就 放弃 并 发 出 错 信号 。 


以 上 过 程 的 逆 过 程 就 是 页 框 块 的 释放 过 程 , 也 古 该 算法 名 字 的 由 来 。 内 核 试 图 把 大 小 为 
b 的 一 对 空 闪 伙伴 块 合并 为 一 个 大 小 为 25 的 单独 块 。 满 足以 下 条 件 的 两 个 块 称 为 伙伴 : 
。 ”两 个 块 具 有 相同 的 大 小 ， 记 作 。。 

” ”它们 的 物理 地 址 是 连续 的 。 

。 ”第 一 块 的 第 一 个 页 框 的 物理 地 址 是 2 x b x 2 “的 倍数 。 


该 算法 是 迭代 的 , 如 果 它 成 功 合 并 所 释放 的 块 , 它 会 试图 合并 24b 的 块 , 以 再 次 试图 形成 
更 大 的 块 。 


数据 结构 

Linux 2.6 为 每 个 管理 区 使 用 不 同 的 伙伴 系统 。 因 此 ， 在 80x86 结构 中 ， 有 三 种 伙伴 系 
统 : 第 一 种 处 理 适 人 台 1ISA DMA 的 页 框 ， 第 二 种 处 理 “ 常 规 ” 页 框 ， 第 三 种 处 理 高 端 内 
存 页 框 。 每 个 伙伴 系统 使 用 的 主要 数据 结构 如 下 ， 3 


。 前面 介绍 过 的 mem map 数 组。 实际 上 ， 每 个 管理 区 都 关系 到 mem_map 元 素 的 子 集 。 
子 集中 的 第 一 个 元 素 和 元 素 的 个 数 分 别 由 管理 区 描述 符 的 zone_mem_map 和 size 字 
段 指定 。 


。 ”包含 有 11 个 元 素 . 元 素 类 型 为 free_area 的 一 个 数组 , 每 个 元 素 对 应 一 种 块 大 小 。 
读数 组 存放 在 管理 区 描述 符 的 free_area 字段 中 。 


我 们 考 虚 管 理 区 描述 符 中 free_area 数 组 的 第 k 个 元 素 , 它 标识 所 有 大 小 为 2 的 空闲 块 。 
这 个 元 素 的 free_list 字 7 段 是 双向 循环 链表 的 头 , 这 个 双向 循环 链表 集中 了 大 小 为 2* 页 
的 空闲 块 对 应 的 页 描述 符 。 更 精确 地 说 ， 该 链表 包含 每 个 空闲 页 框 块 (大 小 为 2) 的 起 
始 页 框 的 页 描述 和 罕 ， 指向 链表 中 相 邻 元 素 的 指针 存放 在 页 描述 符 的 1ru 字 段 中 ( 注 5)。 


注 : 正如 我 们 稍 后 将 看 到 的 ， 当 页 不 空间 时 页 描述 符 的 Iru 字 段 可 被 用 于 其 他 目的 。 
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除了 链表 头 外 ，free_area 数 组 的 第 大 个 元 素 同 样 包含 字段 nr_free， 它 指定 了 大 小 为 
2* 页 的 空闲 块 的 个 数 。 当 然 ， 如 果 没 有 大 小 为 2* 的 空闲 页 框 块 ， 则 nr_free 等 于 0 且 
free_list 为 空 (free_list 的 两 个 指针 都 指向 它 自己 的 free_list 字段 )。 


最 后 ， 一 个 关 的 空闲 页 块 的 第 一 个 页 的 描述 符 的 Private 字段 存放 了 块 的 order， 也 就 是 
数字 上 。 正 是 由 于 这 个 字段 ， 当 页 块 被 释放 时 ， 内 核 可 以 确定 这 个 块 的 伙伴 是 否 也 空闲 ， 
如 果 是 的 话 ， 它 可 以 把 两 个 块 结合 成 大 小 为 2 ”页 的 单一 块 。 应 当 注 意 的 是 ,直到 Linux 
2.6.10， 内 核 使 用 了 10 组 标志 来 对 这 种 信息 进行 编码 。 


分 配 块 


__rmqueue() 函 数 用 来 在 管理 区 中 找到 一 个 空间 块 ,该 函数 需要 两 个 参数 :; 管理 区 描述 
符 的 地 址 和 order， corder 表 示 请 求 的 空 闪 页 块 大 小 的 对 数值 (0 表示 一 个 单 页 块 ，!1 表 
示 一 个 两 页 块 ， 依 次 类 推 )。 如 果 页 框 被 成 功 分 配 ，_ _rmqueue() 消 数 就 返回 第 一 个 被 
分 配 页 框 的 页 描述 符 。 否 则 ， 函 数 返 回 NULL。 


__rmcueue () 国 数 假设 调用 者 已 经 禁止 了 本 地 中 断 并 获得 了 保护 伙伴 系统 数据 结构 的 
zone->lock 自 旋 锁 。 从 所 请 求 order 的 链表 开始 ， 它 扫描 每 个 可 用 块 链表 (由 不 指向 
自己 的 链表 项 表示 ) 进行 循环 搜索 ， 如 果 需 要 搜索 更 大 的 order， 就 继续 搜索 : 


Struct free area *Area: 
unsianed int current order; 


for (current _ order=order; current_order<ll; ++current_ order} | 
aIrea = ZONeE->free area + CUrrent order:; 
if (ilist empty (karea->free_list})) 
goto block_found, 
} 
return NULL:; 
如 果 直 到 循环 结束 还 没有 找到 合适 的 空闲 块 ， 那 么 __rmaueue () 就 返回 NULL。 人 否则 ， 
找到 了 一 个 合适 的 空闲 块 , 在 这 种 情况 下 ,从 链表 中 删除 它 的 第 一 个 页 框 描述 符 , 并 减 
少 管理 区 描述 符 中 的 free_ pages 的 值 : 
block_found: 
page = list entrylarea->freaee list .next, stryuct page, lru}; 
list_del (gpage->]ru}; 
ClearPagePrivate'ipage)}, 
page->private = 0; 


area->nr_free-—:} 
ZO0nNne->free_ pages -= 1UL << order:; 


如 果 从 curr_order 链 表 中 找到 的 块 大 于 请 求 的 order, 就 执行 一 个 while 循 环 。 这 几 行 
代码 莹 含 的 原理 如 下 : 当 为 了 满足 2* 个 页 框 的 请 求 而 有 必要 使 用 2 个 页 框 的 块 时 (hm < 
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k) ， 程 序 就 分 配 前 面 的 2 个 页 框 ， 而 把 后 面 2 -2 个 页 框 循环 再 分 配给 free_area 链表 
中 下 标 在 hi 到 上 之 间 的 元 素 : 
Size = 1 << CUrr order; 
while {curr_order > order}) 1 
et 
Sliz2e SS»>= 1; 


buddy = page + SizZe; 
/* 插入 伙伴 作为 链表 中 第 一 个 元 素 */ 
list add(lgbuddy->lru, &area->free list),; 
Area->nr_ free++: 
buddy->private = curr order; 
Set PagePrivate(buddy); 
} 


Ieturn Dage; 
因为 _ _rmqueue() 函 数 已 经 找到 了 合适 的 空闲 块 ,所 以 它 返 回 所 分 配 的 第 一 个 页 框 对 应 
的 页 描述 符 的 地 址 page。 


释放 块 


__free_pages_pulk{) 函 数 按照 伙伴 系统 的 策略 释放 页 框 。 它 使 用 3 个 基本 输入 参数 
( 注 6)， 


Page 
被 释放 块 中 所 包含 的 第 一 个 页 框 描述 符 的 地 址 。 
ONe 
管理 区 描述 符 的 地 址 。 
order 


块 大 小 的 对 数 。 


该 函数 假设 调用 者 已 经 禁止 本 地 中 断 并 获得 了 保护 伙伴 系统 数据 结构 的 zone->1lock 自 
旋 锁 。_ _free_pages_bulk() 首 先 声 明和 初始 化 一 些 局 部 变量 : 

struict page * base = zoNe->ZonNne_mem_ map; 

unsigned long buddy_idx, page_idx = page - base; 

struct page * buddy, * coalesced; 

int order size = 1 << Order:; 
page_idx 局 部 变量 包含 块 中 第 一 个 页 框 的 下 标 , 这 是 相对 于 管理 区 中 的 第 一 个 页 框 而 言 
的 。 


注 6: 由 于 性 能 的 原因 ， 这 个 内 联 函 数 还 使 用 另 一 个 参数 : 但 是 它 的 值 可 以 由 正文 中 说 明 的 3 
个 基本 参数 决定 。 
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order_size 局 部 变量 用 于 增加 管理 区 中 空闲 页 框 的 计数 器 ，; 


ZONe->tree PaAges += Order_ size: 


现在 函数 开始 执行 循环 ， 最 多 循环 (10-order) 次 ， 每 次 都 尽量 把 一 个 块 和 它 的 伙伴 进 
行 合 并 。 函 数 以 最 小 的 块 开 始 ， 然 后 向 上 移动 到 顶部 : 
while (order < 10) 1 

buddy_idx = page_idx ” (1 << Grder): 

buddy = base + buddy_idx: 

if (ipage_is_ buddy ‘buddy, order}!} 

break; 

list_del lg&gbuddy ->1ruyu):; 

zoOnNne->tree arealorder|] .nr_free--; 

ClearpragePrivatelbuddy).; 

buddy->private = 0; 

page_idx &= buddy_idx; 

Order+t++: 


} 
在 循环 体内 ， 国 数 寻 找 块 的 下 标 budday_idax， 它 是 提 有 page_idx 页 描述 符 下 标的 块 的 
伙伴 。 结 果 这 个 下 标 可 以 被 简单 地 如 下 计算 

buddy_idx = page_idx ” 11 << order): 
实际 上 ， 使 用 (1 < order) 掩 码 的 异 或 (XOR) 转换 page_idx 第 order 位 的 值 。 
此 ， 如 果 这 个 位 原先 是 0，buddy_idx 就 等 于 page_idx + order_size: 相反 ， 如 果 
这 个 位 原先 是 1]，buddy_idx 就 等 于 page_idx - order_ size。 
一 且 知 道 了 伙伴 块 下 标 ， 就 可 以 通过 下 式 很 容易 地 获得 伙伴 块 的 页 描述 符 ; 

buddy = base + buddy_idx: 

现在 函数 调用 page_is_budGy () 来 检查 buddy 是 否 描述 了 大 小 为 order_size 的 空间 页 
框 块 的 第 一 个 页 。 


nt page_is_buddy {struct page *page, int order) 
{ 


if (PagePrivatelbuddy) && page->pDrivate == OQrder 让 区 
!PageReserved{buddy) && page_count (page) ==0) 
return 工 ; 
return 0: 


} 
正如 所 见 ，budady 的 第 一 个 页 必须 为 空间 (_count 字段 等 于 一 1), 它 必 须 属于 动态 内 存 


(PG_reserved 位 请 零 )， 它 的 private 字段 必 须 有 意义 (PG_private 位 置 位 )， 最 后 
Private 字段 必须 存放 将 要 被 释放 的 块 的 order。 
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如 果 所 有 这 些 条 件 都 符合 ， 伙 伴 块 就 被 释放 ， 并 且 国 数 将 它 从 以 order 排序 的 空闲 块 链 
表 上 删除 ， 并 再 执行 一 次 循环 以 寻找 两 倍 大 小 的 伙伴 块 。 


如 果 page_is_buddy () 中 至 少 有 一 个 条 件 役 有 被 清 足 , 则 该 函数 跳出 循环 , 因为 获得 的 
空闲 块 不 能 再 和 其 他 空闲 块 合 并 。 国 数 将 它 揪 人 适当 的 链表 并 以 块 大 小 的 order 更 新 第 
一 个 页 框 的 Private 字段 。 

Coalesced = base + page_idx; 

coalesced->prlvate = order; 

SetPagePrivatelcoalesced}):; 


list add(&kcoalesced->lru, kone->free area[lorder] ,free list}); 
ZO0Ne->free area[ocorder] .nr _ free++; 


每 CPU 页 框 高 速 缓存 


正如 我 们 将 在 本 章 稍 后 看 到 的 , 内 核 经 常 请 求 和 释放 单个 页 框 。 为 了 提升 系统 性 能 , 每 
个 内 存 管 理 区 定义 了 一 个 “每 CPU” 页 框 高 速 缓存 。 所 有 “每 CPU” 高 速 缓存 包含 一 些 
预先 分 配 的 页 框 ， 它 们 被 用 于 满足 本 地 CPU 发 出 的 单一 内 存 请 求 。 


实际 上 , 这 里 为 每 个 内 存 管理 区 和 每 个 CPU 提供 了 两 个 高 速 缓存 , 一 个 热 高 速 缓存 、 它 
存放 的 页 框 中 所 包含 的 内 容 很 可 能 就 在 CPU 硬件 高 速 缓存 中， 还 有 一 个 冷 总 速 缓存 。 


如 果 内 核 或 用 户 态 进程 在 刚 分 配 到 页 框 后 就 立即 向 页 框 写 ,那么 从 热 高 速 缓存 中 获得 页 
框 就 对 系统 性 能 有 利 。 实际 上 , 每 次 对 页 框 存储 单元 的 访问 将 都 会 导致 从 另 一 个 页 框 中 
给 硬件 高 速 缓存 “窃取 ”一 行 一 一 当然， 除非 硬件 高 速 缓存 包含 有 一 行 : 它 映射 刚 被 
访问 的 “ 热 ” 页 框 单元 。 


反 过 来 ， 如 果 页 框 将 要 被 DMA 操作 填充 ， 那 么 从 冷 高 速 缓存 中 获得 页 框 是 方便 的 。 在 


这 种 情况 下 ， 不 会 涉及 到 CPU , 并 且 硬 件 高 速 缓存 的 行 不 会 被 修改 。 从 冷 高 速 缓存 获得 
页 框 为 其 他 类 型 的 内 存 分 配 保存 了 热 页 框 储 备 。 


实现 每 CPU 页 框 高 速 缓存 的 主要 数据 结构 是 存放 在 内 存 管理 区 描述 符 的 pageset 字 段 中 
的 一 个 per_cpu_pageset 数组 数据 结构 。 读 数组 包含 为 每 个 CPU 提供 的 一 个 元 素 ， 这 
个 元 素 依 次 由 两 个 per_cpu_pages 描 述 符 组 成 ,一 个 留 给 热 高 速 缓存 而 另 一 个 留 给 冷 高 
速 缓 存 。per_cpu_pages 描述 符 的 字段 在 表 8-7 中 列 出 。 

表 8-7: per_cpu_pages 描述 符 的 字段 

类 型 名 称 描述 

int COUNt 高 速 缓 存 中 的 页 框 个 数 

int low 下 界 ， 表 示 高 速 缓存 需要 补充 
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表 8-7: per_cpu_pages 描述 符 的 字段 ( 续 ) 


类 型 名 称 描述 

int high 上 界 ， 表 示 高 速 缓存 用 尽 

Init batch 在 高 速 缓存 中 将 要 添加 或 坡 删 去 的 页 框 个 数 
strut list head list 高 速 缓存 中 包含 的 页 框 描述 符 链表 


内 核 使 用 两 个 位 标 来 监视 热 高 速 缓存 和 岭 高 速 缓存 的 大 小 :如 果 页 框 个 数 低 于 下 界 1ow， 
内 核 通过 从 伙伴 系统 中 分 配 batch 个 单一 页 框 来 补充 对 应 的 高 速 缓存 ， 否则 ， 如 果 页 杠 
个 数 高 过 上 界 high, 内 核 从 高 速 缓存 中 释放 batch 个 页 框 到 伙伴 系统 中 。 值 batch, low 
和 high 本 质 上 取决 于 内 存 管理 区 中 包含 的 页 框 个 数 。 


通过 每 CPU 页 框 高 速 缓存 分 配 页 框 
bufferead_rmeueue() 国 数 在 指定 的 内 存 管理 区 中 分 配 页 框 。 它 使 用 每 CPU 页 框 高 速 组 
参数 为 内 存 管理 区 描述 符 的 地 址 ， 请 求 分 配 的 内 存 大 小 的 对 数 order， 以 及 分 配 标志 
gfp_flags。 如 果 gfp_flags 中 的 __GFP_cCoLD 标 志 被 置 位 ， 那么 页 框 应 当 从 冷 高 速 组 
存 中 获取 ， 否 则 它 应 从 热 高 速 缓存 中 获取 (此 标志 只 对 单一 页 框 请 求 有 意义 上 。 该 辆 数 
本 质 上 执行 如 下 操作 : 


1. 如 果 order 不 等 于 0， 每 CPU 页 框 高 速 缓存 就 不 能 被 使 用 ， 国 数 跳 到 第 4 步 。 

2. 检查 由 __GFP_CoLD 标 志 所 标识 的 内 存 管 理 区 本 地 每 CPU 高 速 缓存 是 否 需要 补充 
(Per_cpu_pages 描 述 符 的 count 字段 小 于 或 等 于 low 字段 )。 在 这 种 情况 下 , 它 执 
行 如 下 子 步骤 ; | 
a. 通过 反复 调用 __rmqueue() 函 数 从 伙伴 系统 中 分 配 batch 个 单一 页 框 。 
b. 将 已 分 配 页 框 的 描述 符 插入 高 速 缓存 链表 中 。 
c。. 通过 给 count 增加 实际 被 分 配 页 框 的 个 数 来 更 新 它 。 

3. 如 果 count 值 为 正 ， 则 函数 从 高 速 绥 存 链表 获得 一 个 页 框 ，count 减 1 并 跳 到 第 5 
步 。( 注 意 ， 每 CPU 页 框 高 速 缓存 有 可 能 为 空 ， 当 在 第 2a 步调 用 __rmqueue() 国 
数 而 分 配 页 框 失 败 时 就 会 发 生 这 种 情况 。) 

4. 到 这 里 , 内 存 请 求 还 没有 被 满足 , 或 者 是 因为 请 求 跨 越 了 几 个 连续 页 框 , 或 者 是 因 
为 被 选中 的 页 框 高 速 缓存 为 空 。 调 用 __rmaqueue1() 国 数 从 伙伴 系统 中 分 配 所 请 求 
的 页 框 。 
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5.， 如果 内 存 请 求 得 到 满足 , 函数 就 初始 化 (第 一 个 ) 页 框 的 页 描述 符 : 清除 一 些 标志 ， 
将 Private 字段 置 0， 并 将 页 框 引 用 计数 跨 置 1。 此外， 如 果 gfp_flags 中 区 
__GPF_ZERO 标 志 被 置 位 ， 则 国 数 将 被 分 配 的 内 存 区 域 填充 0。 


6. 返回 (第 一 个 ) 页 框 的 页 描述 符 地 址 ， 如 果 内 存 分 配 请 求 失败 则 返回 NULL。 


释放 页 框 到 每 CPU 页 框 高 速 缓存 

为 了 释放 单个 页 框 到 每 CPU 页 框 高 速 缓 存 ， 内 核 使 用 free_hot_page() 和 
free_cold_page|() 函 数 。 它 们 都 是 free_hot_cold_page() 函数 的 简单 封装 , 接收 的 参数 
为 将 要 释放 的 页 框 的 描述 符 地 址 page 和 cold 标 志 (指定 是 热 高 速 缓 存 还 是 冷 高 速 缓 存 ) 。 


free_hot_cola_pagel) 国 数 执行 如 下 操作 : 

1. 从 page->flags 字 段 歼 取 包 含 读 页 框 的 内 存 管理 区 描述 符 地 址 [参见 前 面 的 “ 非 
一 致 内 存 访 问 {NUMA)” 一 节 ]。 

2. 获取 由 cola 标 志 选 择 的 管理 区 高 速 缓存 的 per_cpu_pages 描述 符 的 地 址 。 


3. 检查 高 速 缓存 是 否 应 该 被 清空 ， 如 果 count 值 高 于 或 等 于 high， 则 调用 
free_pages_bulkf() 函 数 , 将 管理 区 描述 符 、 将 被 释放 的 页 框 个 数 (batch 字 段 ). 高 
速 缓存 链表 的 地 址 以 及 数字 0 (为 0 到 order 个 页 框 ) 传递 给 该 函数 。free_pages_ 
bulkl1() 国 数 依次 反复 调用 __free_pages_bulk() 函 数 来 释放 指定 数量 的 〈 从 高 速 
缓存 链表 获得 的 ) 页 框 到 内 存 管理 区 的 伙伴 系统 中 。 


4. ”把 释放 的 页 框 添加 到 高 速 缓存 链表 上 ， 并 增加 count 字段 。 
应 该 注意 的 是 , 在 当前 的 Linux 2.6 内 核 版 本 中 , 从 没有 页 框 被 释放 到 冷 高 速 缓 存 中 : 至 


于 硬件 高 速 缓存 ， 内核 总 是 假设 被 释放 的 页 框 是 热 的 。 当 然 , 这 并 不 意味 着 冷 高 速 缓存 
空 的 ， 当 达到 下 界 时 通过 buffered_rmqueue |() 补 充 冷 高 速 缓存 。 


管理 区 分 配器 

管理 区 分 配器 是 内 核 页 框 分 配器 的 前 端 ,该 成 分 必须 分 配 一 个 包含 足够 多 空间 页 框 的 内 
存 管理 区 , 使 它 能 满足 内 存 请 求 。 这 个 任务 并 不 像 第 一 眼看 上 去 那么 简单 ,因为 管理 区 
分 配器 必须 满足 几 个 目标 : 

。 ” 它 应 当 保护 保留 的 页 框 池 (参见 前 面 的 “保留 的 页 框 池 ”一 节 )。 


。 ” 当 内 存 不 足 且 人 允许 阻 塞 当前 进程 时 , 它 应 当 触 发 页 框 回 收 蔓 法 (参见 第 十 七 章 ) ;一 
日 某 些 页 框 被 释放 ， 管 理 区 分 配器 将 再 次 尝试 分 配 。 


。 “如果 可 能 ， 它 应 当 保存 小 而 珍贵 的 ZONE_DMRA 内 存 管理 区 。 例 如 ， 如 果 是 对 
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ZONE_NORMAL 或 ZONE_HIGHMEM 页 框 的 请 求 , 那么 管理 区 分 配器 会 不 太 愿 意 分 配 
ZONE_DMA 内 存 管理 区 中 的 页 框 。 


我 们 在 前 面 的 “分 区 页 框 分 配器 ”一 节 中 已 经 看 到 ， 对 一 组 连续 页 框 的 每 次 请 求实 质 上 
是 通过 执行 alloc_pages 宏 来 处 理 的 。 接 着 ， 这 个 宏 又 依次 调用 __alloc_pages() 畏 
数 ， 该 函数 是 管理 区 分 配器 的 核心 。 它 接收 以 下 3 个 参数 : 


gfp _ mask 
在 内 存 分 配 请 求 中 指定 的 标志 (参见 前 面 的 表 8-5)。 
order 
将 要 分 配 的 一 组 连续 页 框 数量 的 对 数 ( 即 要 分 配 2"" 个 连续 的 页 框 )。 
zonelist 
指向 zonelist 数据 结构 的 指针 , 该 数据 结构 按 优先 次 序 描述 了 适 于 内 存 分 配 的 内 
存 管理 区 。 


__alloc_pages() 函 数 扫 搓 包含 在 zonelist 数据 结构 中 的 每 个 内 存 管理 区 。 实 现代 码 
如 下 ; 
for {i = 0; (z=20nelist=->zones[i]j)y != NULL; i+4) 1 
if tzone watermark ok{(z, order, ...})}) { 
page = buffered_rmgqueyuelz, corder, gtp_mask}; 
if (page) 
return page; 
J 
} 


对 于 每 个 内 存 管理 区 , 该 函数 将 空 帮 页 框 的 个 数 与 一 个 阅 值 作 比 较 , 该 辕 值 取决 于 内 存 
分 配 标志 、 当 前 进程 的 类 型 以 及 管理 区 被 函数 检查 过 的 次 数 。 实 际 上 ， 如 二 空 亲 内 存 不 
足 , 那么 每 个 内 存 管 理 区 一 般 会 被 检查 几 遍 , 每 一 遍 在 所 请 求 的 空间 内 存 最 低 量 的 基础 
上 使 用 更 低 的 国 值 扫 朱 。 因 此 前 面 一 段 代 码 在 __alloc_pages() 国 数 体内 被 复制 了 几 
次 ,每 次 变化 很 小 .在 前 面 的 “每 CPU 页 框 高 速 缓 存 一 贡 中 已 经 对 buffered_rmgqueue () 
国 数 作 了 拉 述 : 它 返回 第 一 个 被 分 配 的 页 框 的 页 描述 符 ; 如 果 内 存 管理 区 没有 所 请 求 大 
小 的 一 组 连续 页 框 ， 则 返回 NULL。 


zone_watermark_ok{) 辅 助 消 数 接收 几 个 参数 ,它们 决定 内 存 管 理 区 中 空间 页 框 个 数 的 
国 什 min。 特别 是 ， 如 果 满 足下 列 两 个 条 件 则 该 函数 返回 值 1: 


1. 除了 被 分 配 的 页 框 外 ,在 内 存 管理 区 中 至 少 还 有 min 个 空闲 页 框 ,不 包括 为 内 存 不 
足 保 留 的 页 框 〈 管 理 区 描述 符 的 lowmem_reserve 字 7 段 )。 


2. 除了 被 分 配 的 页 框 外 ， 这 里 在 order 至 少 为 上 的 块 中 起 码 还 有 min/2 个 空 几 页 框 ， 
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其 中 ， 对 于 每 个 k， 取 值 在 1 和 分 配 的 order 之 间 。 因 此 ,如 果 order 大 于 0， 那 么 
在 大 小 至 少 为 2 的 块 中 起 码 还 有 min/2 个 空间 页 框 ， 如 果 order 大 于 1,， 那么 在 大 
小 至 少 为 4 的 块 中 起 码 还 有 min/4 个 空间 页 框 ， 依 此 类 推 。 


国 值 min 的 值 由 zone_watermark_ok() 确 定 ， 具 体 如 下 : 


。 ”作为 函数 参数 被 传递 的 基本 值 可 以 是 内 存 管理 区 界 值 pages_min、pages_low 和 
pages_high 中 的 任意 一 个 (参见 本 章 前 面 的 “保留 的 页 框 字 ”一 节 )。 


。 ”如 果 作 为 参数 传递 的 gfp_high 标志 被 置 位 ， 那 么 base 值 被 2 除 。 通 常 ， 如 果 
gfp_mask 中 的 __GFP_WAIT 标 志 被 置 位 (也 就 是 说 ， 如 果 能 从 高 端 内 存 中 分 配 页 
框 )， 则 这 个 标志 等 于 1。 


。 ”如 果 作 为 参数 传递 的 can_try_harder 标 志 被 置 位 ， 则 阅 值 将 会 再 减少 四 分 之 一 。 
如 果 gfp_masx* 中 的 __GFP_WAIT 标 志 被 置 位 ， 或 者 如 果 当 前 进程 是 一 个 实时 进 
程 并 且 在 进程 上 下 文中 (在 中 断 处 理 程序 和 可 延迟 函数 之 外 ) 已 经 完成 了 内 存 分 
配 ， 则 can_try_harder 标志 等 于 1。 


__alloc_pages1() 国 数 本 质 上 执行 如 下 步骤 : 


1. 执行 对 内 存 管理 区 的 第 一 次 扫 拉 【参见 前 面 列 出 的 代码 )。 在 第 一 次 扫描 中 ， 国 值 
min 被 设 为 z->pages_Low， 其 中 的 z 指 向 正在 被 分 析 的 管理 区 描述 符 (人 参数 
can_try_harder 和 gfp_high 被 设 为 0)。 


2. 如 果 国 数 在 上 一 步 没 有 终止 ,那么 没有 剩 下 多 少 空闲 内 存 : 函数 唤醒 kswapd 内 核 
线程 来 异步 地 开始 回收 页 框 (参见 第 十 七 章 )。 


3. 执行 对 内 存 管理 区 的 第 二 次 扫描 ， 将 值 z->pages_min 作 为 国 值 base 传 递 。 正 如 前 
面 解 释 的 ,实际 国 值 由 the can_try_harder 和 gfp_high 标 志 决 定 。 这 一 步 与 第 
1 步 相 似 ， 但 该 函数 使 用 了 较 低 的 阅 值 。 


4. 如 果 国 数 在 上 一 步 设 有 终止 ,那么 系统 内 存 肯 定 不 足 。 如 果 产 生 内 存 分 配 请 求 的 内 
核 控 制 路 径 不 是 一 个 中 断 处 理 程序 或 一 个 可 延迟 函数 ,并 且 它 试图 回收 页 框 ( 或 者 
是 current 的 PF_MEMALLOC 标 志 被 置 位 , 或 者 是 它 的 PF_MEMDIE 标 志 被 置 位 )， 
那么 函数 随即 执行 对 内 存 管理 区 的 第 三 次 扫描 ,试图 分 配 页 框 并 忽略 内 存 不 足 的 立 
值 ,也 就 是 说 , 不 调用 zone_watermark_ok!()。, 唯 有 在 这 种 情况 下 才 人 允许 内 核 控制 
路 径 耗 用 为 内 夏 不 足 预 留 的 页 (由 管理 区 描述 符 的 1owmem_reserve 字 段 指定 ) 。 其 
实 , 在 这 种 情况 下 产生 内 存 请 求 的 内 核 控制 路 径 最 终 将 试图 释放 页 框 , 因此 只 要 有 
可 能 它 就 应 当 得 到 它 所 请 求 的 。 如 果 没 有 任何 内 存 管理 区 包含 足够 的 页 框 , 函数 就 
返回 NULL 来 提示 调用 者 发 生 了 错误 。 


5. 在 这 里 ， 正 在 调用 的 内 核 控制 路 径 并 和 没有 试图 回收 内 存 。 如 果 gfp_mask 的 
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__GFP_WaAIT 标 志 没 有 被 置 位 ， 国 数 就 返回 NULL 来 提示 该 内 核 控制 路 径 内 存 分 配 
失败 : 在 这 种 情况 下 ， 如 果 不 阻塞 当前 进程 就 没有 办 法 满足 请 求 。 

在 这 里 当前 进程 能 够 被 阻塞 ， 调 用 cond_resched() 检 查 是 否 有 其 它 的 进程 需要 
CPU 。 


设置 current 的 PF_MEMALLOC 标志 来 表示 进程 已 经 准备 好 执行 内 存 回 收 。 


将 一 个 指向 reclaim_state 数 据 结构 的 指针 存 人 current->reclaim_state。 这 
个 数据 结构 只 包含 一 个 字段 reclaimed_slab， 被 初始 化 为 0 (我 们 将 在 本 章 后 面 
的 “slab 分 配器 与 分 区 页 框 分 配器 的 接口 ”一 节 看 到 如 何 使 用 这 个 字段 )。 


调用 try_to_free_pages1{() 寻 找 一 些 页 框 来 回收 (参见 第 十 七 章 的 “内 存 紧 缺 回 
收 ” 一 节 )。 后 一 个 函数 可 能 阻塞 当前 进程 。 一 旦 国 数 返回 ，__alloc_pages1() 就 
重 设 current 的 PF_MEMALLOC 标志 并 再 次 调用 cond_resched1{)。 


如 果 上 一 步 已 经 释放 了 一 些 页 框 , 那么 该 函数 还 要 执行 一 次 与 第 3 步 相同 的 内 存 管 
理 区 扫描 。 如果 内 存 分 配 请 求 不 能 被 满足 , 那么 函数 决定 是 否 应 当 继 续 扫 描 内 存 管 
理 区 : 如 果 __GFP_NORETRY 标 志 被 清除 ,并 且 内 存 分 配 请 求 跨越 了 多 达 8 个 页 框 或 
__GFP_REPEAT 和 __GFP_NOFAIL 标志 其 中 之 一 被 置 位 ， 那 么 国 数 就 调用 
blk_congestion_wait () 使 进程 休 上 根 一 会 儿 ( 参 见 第 十 四 章 ), 并 且 跳 回 到 第 6 步 。 
否则 ， 国 数 返 回 NULL 来 提示 调用 者 内 存 分 配 失 败 了 。 


如果 在 第 ? 步 中 没有 释放 任何 页 框 ， 就 意味 着 内 核 遇 到 很 大 的 麻烦 ， 因 为 空 亲 页 杠 


已 经 少 到 了 和 危险 的 地 步 , 并 且 不 可 能 回收 任何 页 框 。 也 许 到 了 该 作出 重要 决定 的 时 
修了。 如 果 人 允许 内 核 控 制 路 径 执 行 依赖 于 文件 系统 的 操作 来 杀 死 一 个 进程 
(gfp_mask 中 的 __GFP_FS 标 志 被 置 位 ) 并 且 __GFP_NORETRY 标 志 为 0， 那 么 执行 
如 下 子 步 又 : 


a， 使 用 等 于 z->pages_high 的 阅 值 再 一 次 扫描 内 存 管理 区 。 

b. 调用 out_of_memory () 通 过 杀 死 一 个 进程 开始 释放 一 些 内 存 ( 参 见 第 十 七 章 的 
“内 存 不 足 删 除 程序 ”一 节 ) 。 

c。 跳 回 第 1 步 。 

因为 第 11a 步 使 用 的 界 值 远 比 前 面 扫描 时 使 用 的 界 值 要 高 ， 所 以 这 个 步骤 很 容易 失 

败 。 实 际 上 ， 只 有 当 另 一 个 内 核 控制 路 径 已 经 杀 死 一 个 进程 来 回收 它 的 内 存 后 ， 第 

11a 步 才 会 成 功 执行 。 因 此 , 第 11a 步 避免 了 两 个 无 谤 的 进程 【而 不 是 一 个 ) 被 杀 死 。 


释放 一 组 页 框 
管理 区 分 配器 同样 负责 释放 页 框 ， 幸 运 的 是 ， 释 放 内 存 比 分 配 它 要 简单 得 多 。 
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在 前 面 的 “分 区 页 框 分 配器 ”一 节 描 述 的 用 来 释放 页 框 的 所 有 内 核 宏 和 函数 都 依赖 于 
__free_pages(} 函数 。 它 接收 的 参数 为 将 要 释放 的 第 一 个 页 框 的 页 描述 符 的 地 址 
(page) 和 将 要 释放 的 一 组 连续 页 框 的 数量 的 对 数 (order)。 读 函数 执行 如 下 步 又 : 


1. 检查 第 一 个 页 框 是 否 真 正 属 于 动态 内 存 ( 它 的 PG_reserved 标 志 被 清 0)， 如果 不 
是 ， 则 终止 。 


2. 减少 page->_count 使 用 计数 器 的 值 ， 如 果 它 仍然 大 于 或 等 于 0， 则 终止 。 


3. ”如果 order 等 于 0， 那 么 该 函数 调用 free_hot_page|() 来 释放 页 框 给 适当 内 存 管 
理 区 的 每 CPU 热 高 速 缓 存 (参见 前 面 的 “每 CPU 页 框 高 速 缓 存 ” 一 节 )。 


4. ”如 果 order 大 于 0, 那么 它 将 页 框 加 和 人 到 本 地 链表 中 , 并 调用 free_pages_bulk() 
函数 把 它们 释放 到 适当 内 存 管理 区 的 伙伴 系统 中 (参见 前 面 的 “每 CPU 页 框 高 速 
缓存 ”一 节 中 描述 的 free_hot_colg_page() 的 第 3 步 )。 


内 存 区 管理 
本 节 关 注 内 存 区 (memory area) ,也 就 是 说 , 关注 具有 连续 的 物理 地 址 和 任意 长 度 的 内 
存单 元 序列 。 


伙伴 系统 算法 采用 页 框 作为 基本 内 存 区 , 这 适合 于 对 大 块 内 存 的 请 求 , 但 我 们 如 何 处 理 
对 小 内 存 区 的 请 求 昵 ， 比 如 说 几 十 或 几 百 个 字 市 ? 


显然 ， 人 a a 
的 正确 方法 就 是 引信 一 利 新 的 数据 结构 来 描述 在 三 中 如 
也 引出 了 一 个 新 的 问题 ， 即 所 谓 的 内 原 ae 
是 由 于 请 求 内 存 的 大 小 与 分 配给 它 的 大 小 不 匹配 而 造成 的 。 


一 种 典型 的 解决 方法 (早期 Linux 版 本 采用 ) 就 是 提供 按 几 何 分 布 的 内 存 区 大 小 ， 换 名 
话说 ,内 存 区 大 小 取决 于 2 的 畦 而 不 取决 于 所 存 才 的 数 。 这 样 ， 不管 请 求 内 存 的 
大 小 是 多 少 , 我 们 都 可 保证 内 碎片 小 于 50%。 为 此 , 内 核 建立 了 13 个 按 几 何 分 布 的 空闲 
内 存 区 链表 ,它们 的 大 小 从 32 到 131072 字 节 。 伙伴 系统 的 调用 既 为 了 获得 存放 新 内 存 
区 所 需 的 额外 页 框 , 也 为 了 释放 不 再 包含 内 存 区 的 页 框 。 用 一 个 动态 链表 来 记录 每 个 页 
框 所 包含 的 空闲 内 存 区 。 








slab 分 配器 


在 伙伴 算法 之 上 运行 内 存 区 分 配 算法 没有 显著 的 效率 ,一 种 更 好 的 算法 源 自 siab 分 配器 
模式 ， 该 模式 最 旱 用 于 Sun 公司 的 Solaris 2.4 操作 系统 中 。 新 算法 基于 下 列 前提 : 


一 一 一 一 一 一 


J CC 一 CC 一 CC 人 CCC GOO 人 CC 


所 存放 数据 的 类 型 可 以 影响 内 存 区 的 分 配方 式 ,例如 , 当 给 用 户 态 进程 分 配 一 个 页 
框 了 时， 内核 调用 get_zeroed_page() 函 数 用 0 填充 这 个 页 。 


slab 分 配器 概念 扩充 了 这 种 思想 , 并 把 内 存 区 看 作对 象 (objec1), 这 些 对 象 由 一 组 
数据 结构 和 几 个 叫做 构造 (construcror) 或 析 构 (destructor) 的 国 数 (或 方法 ) 组 
成 。 前 者 初始 化 内 存 区 ， 而 后 者 回收 内 存 区 。 


重复 初始 化 对 象 , slab 分 配器 并 不 丢弃 已 分 配 的 对 象 ,而 它们 
保存 在 内 存 中 。 当 以 后 又 要 请 求 新 的 对 象 时 ， 就 可 以 从 内 存 获取 而 不 用 重新 初始 
化 。 


内 核 函 数 倾 向 于 反复 请 求 同 一 类 型 的 内 存 区 。 例如 , 只 要 内 核 创建 一 个 新 进程 , 它 
就 要 为 一 些 固定 大 小 的 表 [ 如 进程 描述 符 、 打 开 文 件 对 象 等 等 (参见 第 三 章 )] 分 
配 内 存 区 。 当 进程 结束 时 , 包含 这 些 表 的 内 存 区 还 可 以 被 重新 使 用 。 因 为 进程 的 创 


建 和 撤消 非常 频 莹 , 在 没有 slab 分 配器 时 ， 二 全 大 下 外 回收 那些 


包含 同一 内 存 区 的 页 框 上 :slab 分 配器 把 









使 用 它们 。 


对 内 存 区 的 请 求 可 以 根据 它们 发 生 的 频率 来 分 类 。 对 于 预期 频繁 请 求 一 个 特定 大 小 
的 内 存 区 而 言 , 可 以 通过 创建 一 组 具有 适当 大 小 的 专用 对 象 来 高 效 地 处 理 , 由 此 以 
避免 内 碎片 的 产生 。 另 一 种 情况 , 对 于 很 少 遇 到 的 肉 存 区 大 小 , 可 以 通过 基于 一 系 
列 几何 分 布 大 小 (如 早期 Linux 版 本 所 使 用 的 2 的 禾 次 方 大 小 ) 的 对 象 的 分 配 模式 
来 处 理 ， 即 使 这 种 方法 会 导致 内 碎片 的 产生 。 


在 引 人 的 对 象 大 小 不 是 几何 分 布 的 情况 下 , 也 就 是 说 , 数据 结构 的 起 始 地 址 不 是 物 
理 地 址 值 的 2 的 器 次 方 , 事情 反倒 好 办 。 这 可 以 借助 处 理 器 硬件 高 速 缓存 而 导致 较 
好 的 性 能 。 


硬件 高 速 缓存 的 高 性 能 又 是 尽 可 能 地 限制 对 伙伴 系统 分 配器 调用 的 另 一 个 理由 , 因 
为 对 伙伴 系统 函数 的 每 次 调用 都 “ 弄 脏 ”硬件 高 速 缓存 , 所 以 增加 了 对 内 存 的 平均 
访问 时 间 。 内 核 函 数 对 硬件 高 速 缓存 的 影响 就 是 所 谓 的 国 数 “足迹 (ootprint)"， 
其 定义 为 图 数 结束 时 重 写 高 速 缓存 的 百分比 。 显 而 易 见 ,大 的 “足迹 ”导致 内 核 函 
数 刚 执行 之 后 较 慢 的 代码 执行 ， 因 为 硬件 高 速 缓存 此 时 填 满 了 无 用 的 信息 。 


slab 分 配器 把 对 象 分 组 放 进 高 速 缓存 。 每 个 高 速 缓存 都 是 同 种 类 型 对 象 的 一 种 “储备 "。 
例如 , 当 一 个 文件 被 打开 时 ,存放 相应 “打开 文件 ”对象 所 需 的 内 存 区 是 从 一 个 叫做 filp 
(“文件 指针 ”) 的 slab 分 配器 的 高 速 缓存 中 得 到 的 。 


包含 高 速 缓存 的 主 内 存 区 被 划分 为 多 个 slab， 每 个 slab 由 一 个 或 多 个 连续 的 页 框 组 成 ， 


这 些 页 框 中 既 包 含 已 分 配 的 对 象 ， 也 包含 空闲 的 对 入 





(如 图 8-3 所 示 )。 
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8-3: slab 分 配器 的 组 成 


我 们 将 在 第 十 七 章 看 到 ， 内 核 周 期 性 地 扫描 高 速 和 缓存 并 释放 空 slab 对 应 的 页 框 。 


高 速 缓存 描述 符 

每 个 高 速 缓存 都 是 由 Janem_cache 上 (等 价 于 struct kmem_cache_s 类 型 ) 类 型 的 数据 
结构 来 描述 的 , 表 8-8 列 出 了 它 的 字段 。 我 们 在 表 中 省 略 了 用 于 收集 统计 数 信息 和 调试 
的 几 个 字段 。 


表 8-8: kmem_cache_t 描 述 符 的 字段 


类 型 名 称 说 明 

struct array 每 CPU 指针 数组 指向 包含 空 闪 对 象 的 本 地 高 

array_cache * [] 速 缓存 (参见 本 章 后 面 的 用 “空间 slab 对 象 
的 本 地 高 束 缓 存 ” 一 节 ) 

unsigned int batchcount 要 转移 进 本 地 高 速 缓存 或 从 本 地 高 速 缓存 中 转 
移出 的 大 批 对 象 的 数量 

unsigned int limit 本 地 高 速 缓存 中 空闲 对 象 的 最 大 数目 。 这 是 可 
调 的 

struct kmem list3 lists 参见 下 一 个 表 

unsigned int objsize 高 速 缓 存 中 包含 的 对 象 的 大 小 

unsigned int flags 描述 高 速 缓存 永久 属性 的 一 组 标志 

unsigned int num 封装 在 一 个 单独 slab 中 的 对 象 个 数 (高 速 缓 
存 中 的 所 有 slab 具有 相同 的 大 小 ) 

unsigned int free_limit 整个 slab 高 速 缓存 中 空 亲 对 象 的 上 限 

spinlock_t spinlock 高 速 缓存 自 旋 钳 


unsigned int gfporder 一 个 单独 slab 中 包含 的 连续 页 框 数目 的 对 数 


表 8-8: kmem_cache_t 描 述 符 的 字段 〈( 续 ) 


类 型 


unsigned int 


size t 


unsigned int 
unsigned int 


kmem cache_t * 


unsigqned int 
unsignaed int 
vOolid * 
VOid * 


ConNnst char * 


struct Jist head 


名 称 
gfpflags 


CoOlour 


coOlour off 
COlour next 


slabp_cache 


slab _ size 
dflags 
Ctor 

dtor 
name 


next 





一 一 一 = 


说 明 

分 配 页 框 时 传递 给 伙伴 系统 国 数 的 一 组 标志 
slab 使 用 的 颜色 个 数 (参见 本 章 后 面 的 “slab 
着 色 ” 一 节 ) 

slab 中 的 基本 对 齐 偏 移 

下 一 个 被 分 配 的 slab 使 用 的 颜色 

指针 指向 包含 slab 描述 符 的 普通 slab 高 速 组 
存 (如 果 使 用 了 内 部 slab 描 述 符 , 则 这 个 字段 
为 NULL 参见 下 一 节 ) 


单个 slab 的 大 小 

描述 高 速 缓存 动态 属性 的 一 组 标志 

指向 与 高 速 缓存 相关 的 构造 方法 的 指针 

指向 与 高 速 缓存 相关 的 析 构 方法 的 指针 
存放 高 速 缓 存 名 字 的 字符 数组 

高 速 缓存 描述 符 双向 链表 使 用 的 指针 





kmem_cache_t 描述 符 的 1ists 字段 又 是 一 个 结构 体 ， 它 的 字段 在 表 8-9 中 列 出 。 
表 8-9; kmem_list3 结构 的 字段 


类 型 


struct list head 


struct list head 
struct list head 
unsigned long 


1nt 


unsigned long 


Struct 


array_cache * 


ee 一 -一 一- 一- -一 -一 一 


名 称 


slabs partial 


slabs full 
slabs free 
free_objects 


free touched 


next_reap 


shared 


说 明 
包含 空 亲 和 非 空闲 对 象 的 slab 描述 符 双 向 循环 
链表 

不 包含 空闲 对 象 的 slab 描述 符 双 向 循环 链表 
只 包含 空闲 对 象 的 slab 描述 符 双 向 循环 链表 
高 速 缓 存 中 空闲 对 象 的 个 数 

由 slab 分 配器 的 页 回收 算法 使 用 (参见 第 十 七 
间 ) 

由 slab 分 配器 的 页 回收 算法 使 用 (参见 第 十 七 
章 ) 

指向 所 有 CPU 共享 的 一 个 本 地 高 速 缓存 的 指针 
(参见 后 面 的 “空闲 slab 对 象 的 本 地 高 速 缓存 ” 
= 


内 存 管理 st 


slab 描述 符 
高 速 缓存 中 的 每 个 slab 都 有 自己 的 类 型 为 slab 的 描述 符 ,如 表 8-10 所 示 . 


表 8-10: slab 描述 符 的 字段 
类 型 名 称 说 明 


struct list heac list slab 描述 符 的 三 个 双向 循环 链表 中 的 一 个 
(在 高 速 缓存 描述 符 的 Jmem_list3 结 构 中 的 
slabs_full, slabs partial 或 slabs_ 
free 链表 ) 使 用 的 指针 


unsigned long colouroff slab 中 第 一 个 对 象 的 偏 移 (参见 本 章 后 面 的 
“slab 着 色 ” 一 节 ) 

VOid * s_mem slab 中 第 一 个 对 象 (或 者 已 被 分 配 ,或 者 空 
闲 ) 的 地 址 

unsigned int inuse 当前 正在 使 用 的 〈( 非 空闲 ) slab 中 的 对 象 个 
数 

unsigned int free slab 中 下 一 个 空 帮 对 象 的 下 标 , 如 果 没 有 剩 


下 空闲 对 象 则 为 BUFCTL_END (参见 本 章 
_ 后 面 的 “对 象 描述 符 ” 一 节 ) 


slab 描述 符 可 以 存放 在 两 个 可 能 的 地 方 : 


外 部 slab 一 述 符 
存放 在 slab 外 部 ， 位 于 cache_sizes 指向 的 一 个 不 适合 ISA DMA 的 普通 高 速 组 
存 中 (参见 下 一 节 )。 

内 部 slab 捕 述 符 
存放 在 slab 内 部 ， 位 于 分 配给 slab 的 第 一 个 页 框 的 起 始 位 置 。 


当 对 象 小 于 512MB 了 时， 或 者 当 内 碎片 在 slab 内 部 为 slab 描述 符 将 在 后 面 介 绍 (及 对 象 
描述 符 ) 留 下 足够 的 空间 时 ，slab 分 配器 选择 第 二 种 方案 。 如 果 slab 描述 符 存放 在 slab 
外 部 ， 那 么 高 速 缓 存 描述 符 的 flags 字段 中 的 CFLGS_OFF_SLAB 标志 被 置 1， 否则 它 
被 置 0，。 


图 8-4 显 示 了 高 速 缓存 描述 符 和 slab 描 述 符 之 间 的 主要 关系 。 全 满 的 slab., 部 分 满 的 slab 
及 空闲 的 slab 链接 在 不 同 的 链表 中 。 
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.ee fcache) next 次 全 满 的 slab 


———ie coche) slabs_full slab 描 述 符 - 
本 一 一 -一 和 {coche) slabs_partial 部 分 满 的 slab ee 
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8-4: 高 速 缓存 描述 符 与 slab 描述 符 之 间 的 关系 


普通 和 专用 高 速 缓存 
高 速 缓存 被 分 为 两 种 类 型 : 普通 和 专用 。 普 通 高 速 缓存 只 由 slab 分 配器 用 于 自己 的 目的 ， 
而 专用 高 速 缓存 由 内 核 的 其 余部 分 使 用 。 


普通 高 速 缓 存 是 ; 


* 第 一 个 高 速 缓存 叫做 kmem_cache, 包含 由 内 核 使 用 的 其 余 高 速 绥 存 的 高 速 缓存 描 
述 符 。cache_cache 变量 包含 第 一 个 高 速 缓 存 的 描述 符 。 


*。 另外 一 些 高 速 缓存 包含 用 作 普 通用 途 的 内 存 区 。 内 存 区 大 小 的 范围 一 般 包 括 13 个 
几何 分 布 的 内 存 区 。 一 个 叫做 malloc_sizes 的 表 (其 元 素 类 型 为 cache_sizes) 
分 别 指向 26 个 高 速 缓存 描述 符 ， 与 其 相关 的 内 存 区 大 小 为 32, 64, 128, 256, 512， 
1024, 2048, 4096, 8192, 16384, 32768, 65536 和 131072 字 节 。 对 于 每 种 大 小 ， 都 
有 两 个 高 速 缓存 : 一 个 适用 于 ISA DMA ， 另 一 个 适用 于 常规 分 配 。 





在 系统 初始 化 期 间 调 用 kmem_cache_init(} 和 kmem_cache_sizes_init() 来 建立 普通 
高 速 缓存 。 


专用 高 速 缓 存 是 由 kmem_cache_create() 函数 创建 的 。 这 个 函数 首先 根据 参数 确定 处 
理 新 高 速 缓存 的 最 佳 方 法 (例如 ， 是 在 slab 的 内 部 还 是 外 部 包含 slab 描述 符 )。 然 后 它 
从 cache_cache 普 通 高 速 缓存 中 为 新 的 高 速 缓 存 分 配 一 个 高 速 缓存 描述 符 , 并 把 这 个 摘 


NA 


述 符 插 入 到 高 速 缓存 描述 和 罕 的 cache_chain 链 表 中 ( 当 获 得 了 用 于 保护 链表 避免 被 同时 
访问 的 cache_chain_sem 信 号 量 后 ， 插入 操作 完成 )。 


还 可 以 调用 kmem_cache_destroy(}) 撤 销 一 个 高 速 绥 存 并 将 它 从 cache_chain 链 表 上 删 
除 。 这 个 国 数 主要 用 于 模块 中 ， 即 模块 装 人 时 创建 自己 的 高 速 缓存 ,卸载 时 撤销 高 速 组 
存 。 为 了 避免 浪费 内 存 空 间 ， 内 核 必须 在 撤销 高 速 缓存 本 身 之 前 就 撤销 其 所 有 的 slab。 
kmem_cache_shrink() 国 数 通过 反复 调用 slabh_aestrov1() 撤 销 高 速 缓 存 中 所 有 的 slab 
(参见 后 面 “ 从 高 速 缓存 中 释放 slab” 一 市 )。 


所 有 普通 和 专用 高 速 缓 存 的 名 字 都 可 以 在 运行 期 间 通 过 读 取 /proc/slabinfo 文 件 得 到 。 这 
个 文件 也 指明 每 个 高 速 缓存 中 空间 对 象 的 个 数 和 已 分 配对 象 的 个 数 。 


slab 分 配器 与 分 区 页 框 分 配器 的 接口 


当 slab 分 配器 创建 新 的 slabp 时 ， 它 依靠 分 区 页 框 分 配器 来 获得 一 组 连续 的 空 为 
了 达到 此 目的 , 它 调用 Janem_getpages1() 国 数 , 在 UMA 系统 上 该 函数 本 质 上 等 价 于 如 


下 代码 片段 : 


VOld * kmem getpages (kmem cache _t *cachep, int flags) 
‘ 

struct page *page:; 

int i; 


flaygs |= cachep->gfpf lags; 
page = alloc pages{(flags, cachep->gfporder}; 
if (!page'’ 
return NULL:; 
i = (1 << Cache->gqfporder}): 
It tcachep->flags & SLAB_RECLAIM ACCOUNT) 
atomic _ addti, gslab reclaim pagesl}: 
while (i--) 
SetPageSslablpage++); 
return page_address (pagel): 
1 


两 个 参数 的 含义 如 下 : 


cachep 
指向 需要 额外 页 框 的 高 速 缓存 的 高 速 缓 存 描 述 和 罕 (请 求 页 框 的 个 数 由 存放 在 
cachep->gfporder 字段 中 的 order 决定 )。 

tlags 
说 明 如 何 请 求 页 框 (参见 本 章 前 面 “ 分 区 页 框 分 配器 ”一 节 )。 这 组 标志 与 存放 在 
高 速 缓存 描述 符 的 gfpflags 字段 中 的 专用 高 速 缓存 分 配 标 志 相 结合 。 
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内 存 分 配 请 求 的 大 小 由 高 速 缓 存 描述 符 的 gfporder 字 段 指定 ,该 字段 将 高 速 缓存 中 slab 
的 大 小 编码 ( 注 7)。 如 果 已 经 创建 了 slab 高 速 缓存 并 且 SLAB_RECLAIM_ACCOUNT 标 
志 已 经 置 位 , 那么 当 内 核 检查 是 否 有 足够 的 内 存 来 满足 一 些 用 户 态 请 求 时 ， 分 配给 slab 
的 页 框 将 被 记录 为 可 回收 的 页 。 函 数 还 将 所 分 配 页 框 的 页 描述 符 中 的 PG_slab 标 志 置 位 。 


在 相反 的 操作 中 ， 通 过 调用 kmem_freepages () 国 数 可 以 释放 分 配给 slab 的 页 框 〈【 参 见 
本 章 后 面 “ 从 高 速 缓存 中 释放 slab” 一 市 ); 

VOld kmem freepages (kmem cache_t *cachep, void *addr) 

{ 


unsigned long i = (ll<<cachep->gfporder):; 
struct page *page = Virt_to _ page laddr).; 


if (current->reclaim state) 
CUrrent->reclaim state-»reclaimed_ slab += i: 
while (i--) 
ClearPageSslablipage++); 
free pages{ ‘unsigned long} addr, cachep->gfporder).; 
iE icachep->flags & SLAB_ RECLAIM_ACCOLNT) 
atomic subll<<cachepn->gfnorder, &slab_ reclaim pages):; 


} 
这 个 图 数 从 线性 地 址 aaar 开 始 释放 页 框 , 这 些 页 框 曾 分 配给 由 cachep 标 识 的 高 速 缓存 
中 的 slab。 如 果 当 前 进程 正在 执行 内 存 回收 (current->reclaim_state 字 段 韭 NULL )， 
reclaim_state 结 构 的 reclaimed_slab 字 段 就 被 适当 地 增加 , 于 是 刚 被 释放 的 页 就 能 
通过 页 框 回收 算法 (参见 第 十 七 章 的 “内 存 紧 缺 回收 ”一 节 ) 被 记录 下 来 。 此 外 ， 如 果 
SLAB_RECLAIM_ACCOUNT 标 志 置 位 (参见 上 面 ), slab_reclaim_pages 变 量 则 被 适当 地 
减少 。 


给 高 速 缓存 分 配 slab 

一 个 新 创建 的 高 速 缓存 没有 包含 任何 slab,， 因 此 也 没有 空闲 的 对 象 。 只 有 当 以 下 两 个 条 
件 都 为 真 时 ， 才 给 高 速 缓存 分 配 slab， 

。 ”已 发 出 一 个 分 配 新 对 象 的 请 求 。 

。 ”高 速 缓存 不 包含 任何 空 闪 对 象 。 


注 了 : 注意 不 可 能 从 ZONE_HIGHMEM 内 存 管 理 区 分 配 页 框 ,因为 kmem_getpages() 范 数 返 回 
由 page_address() 函 数 产 生 的 线性 地 址 ; 正如 在 本 章 前 面 的 “高 端 内 存 页 框 的 内 核 映 
射 ”一 节 解 释 的 那样 ， 访 光 数 为 未 映 射 的 商 端 内 认 页 框 返 回 NULL。 
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当 这 些 情况 发 生 时 ，slab 分 配器 通过 调用 cache_grow() 国 数 给 高 速 缓存 分 配 一 个 新 的 
slab, 而 这 个 国 数 调 用 kmem_getpages () 从 分 区 页 框 分 配器 获得 一 组 页 框 来 存放 一 个 单独 
的 slab, 然 后 又 调用 alloc_slabmgmt () 获 得 一 个 新 的 slab 描 述 符 。 如 果 高 速 缓存 描述 符 的 
CFLGS_OFF_SLAB 标 志 置 位 , 则 从 高 速 缓存 描 述 符 的 slabp_cache 字 段 指 向 的 普通 高 速 组 
存 中 分 配 这 个 新 的 slab 描述 符 ， 否则 ， 从 slab 的 第 一 个 页 框 中 分 配 这 个 slab 描述 符 。 


给 定 一 个 页 框 ， 内核 必 须 确定 它 是 否 被 slab 分 配器 使 用 ， 如果 是 , 就 迅速 得 到 相应 高 速 
缓存 和 slab 描述 符 的 地 址 。 因 此 ，cache_ grow |) 扫 描 分 配给 新 slab 的 页 框 的 所 有 页 
描述 符 , 并 将 高 速 缓存 描述 符 和 slab 描 述 符 的 地 址 分 别 赋 给 页 描述 符 中 1ru 字 段 的 next 
和 prev 子 字段 。 这 项 工作 不 会 出 错 ， 因 为 只 有 当 页 框 空闲 时 伙伴 系统 的 函数 才 会 使 用 
lru 字 段 , 而 只 要 涉及 伙伴 系统 ，slab 分 配器 函数 所 处 理 的 页 框 就 不 空间 并 和 将 PG_slab 
标志 置 位 ( 注 8)。 相 反 的 问题 一 一 在 高 速 缓存 中 给 定 一 个 slab ， 用 哪些 页 框 来 实现 它 ? 
这 个 问题 可 以 通过 使 用 slab 描述 符 的 s_mem 字段 和 高 速 缓存 描述 符 的 gfporder 字段 
(slab 的 大 小 ) 来 回答 。 


接着 ，cache_grow() 调 用 cache_init_objs()， 它 将 构造 方法 (如 果 定 义 了 的 话 ) 应 
用 到 新 slab 包含 的 所 有 对 象 上 。 


最 后 ，cache_ grow(}) 调 用 list_adqd_tail |() 来 将 新 得 到 的 slab 描述 符 *slabp， 添 加 到 
高 速 缓存 描述 符 *cachep 的 全 空 slab 链表 的 末端 ， 并 更 新 高 速 缓存 中 的 空 闪 对象 计数 器 : 


list add tail{&gslabp->list, &cachep->lists->slabs free); 
cachep->llists-sfree_objects += cachep->num; 


从 高 速 缓存 中 释放 slab 
在 两 种 条 件 下 才能 撤销 slab: 


。 ”slab 高 速 缓存 中 有 太 多 的 空间 对 象 。 
。 ”被 周期 性 调用 的 定时 器 函数 确定 是 否 有 完全 未 使 用 的 slab 能 被 释放 (参见 第 十 七 
章 )。 
在 两 种 情况 下 ， 调 用 slab_destroy() 函 数 撤销 一 个 slab， 并 释放 相应 的 页 框 到 分 区 页 
框 分 配器 : 
vold slab destroy {kmem_cache t *cachep, slab _t *slabp) 


{ 
if cachen->dtor} 1 


| 注 8: 我 们 将 在 第 十 七 章 看 到 ，1ru 字段 还 被 页 框 回收 算法 使 用 ， 


BE 
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int i; 
fer (i = 0 i < cachep->num: i++} 1 
void* objp = slabp->s mem+cachep->objslize*i; 
(cachep-»>dtor} (objp, cachep, 0): 
} 
} 
kmem_freepages cachep, slabp->s_mem - glabp->CcCoOlouroff}.; 
if (cachep->flags & CFLGS_OFF_SLAB) 
kmem_cache_ freelcachep-»>slabp_cache, slabp}):; 


} 


这 个 国 数 检查 高 速 缓存 是 否 为 它 的 对 象 提供 了 析 构 方法 (dtor 字段 不 为 NULL)， 如 果 
是 ， 就 使 用 析 构 方法 释放 slab 中 的 所 有 对 象 。objp 局 部 变量 记录 当前 已 检查 的 对 象 。 
接 下 来 ， 又 调用 kmem_freepages(), 该 函数 把 slab 使 用 的 所 有 连续 页 框 返回 给 伙伴 系 
统 。 最 后 ， 如 果 slab 描 述 符 存 放 在 slab 的 外 面 , 那么 ,就 从 slab 描述 符 的 高 速 缓存 释放 
这 个 slab 描述 符 。 


实际 上 ， 该 函数 稍微 更 复杂 一 些 。 例 如 ， 可 以 使 用 SLAB_DESTROY_BY_RCU 标 志 来 创建 
slab 高 速 缓存 ， 这 就 意味 着 应 使 用 cal1l_rcu() 国 数 注 册 一 个 回调 来 延期 释放 slab[ 参 见 
第 五 章 的 “ 读 一 拷贝 一 更 新 (RCU)” 一 节 ]。 正 如 前 面 描述 的 主要 情形 ,回调 函数 接着 调 
用 Jamnem_freepages()， 也 可 能 调用 kmem_cache_freet{)。 


对 象 描述 符 

每 个 对 象 都 有 类 型 为 nem_bufct1l_ 上 的 一 个 描述 符 。 对 象 描述 符 存 放 在 一 个 数组 中 , 位 
于 相应 的 slab 描述 符 之 后 。 因 此 , 与 slab 描述 符 本 身 类 似 ，slab 的 对 象 描述 符 也 可 以 用 
两 种 可 能 的 方式 来 存放 ， 如 图 8-5 所 示 。 


外 部 对 象 巾 壕 符 
存放 在 slab 的 外 面 ， 位 于 高 速 缓 存 描述 符 的 slabp_cache 字 段 指 向 的 一 个 普通 高 
速 缓存 中 .。 内存 区 的 大 小 (尤其 是 存放 对 象 描述 符 的 普通 高 速 缓存 的 大 小 ) 取决 于 
在 slab 中 所 存放 的 对 象 个 数 (高 速 缓存 描述 符 的 num 字段 )。 

内 部 对 和 象 嵌 述 符 
存放 在 slab 内 部 ， 正 好 位 于 描述 符 所 描述 的 对 象 之 前 。 


数组 中 的 第 一 个 对 象 描述 符 描述 一 个 对 象 , 依次 类 推 。 对 象 描述 符 只 不 过 是 


一 个 无 符号 整数 ， ai 它 包 含 的 是 下 一 个 空闲 对 象 在 slab 中 的 
下 标 ， 因此 更 了 slab 内 部 空闲 计 充 上 9 。 空 闪 对 象 链表 中 的 最 后 一 se 
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具有 内 部 对 象 描述 符 的 slab 


| 空闲 的 已 分 配 
的 对 象 | ”对象 :| 的 对 象 站 对象 


人 本 空间 的 已 分 配 空间 的 | 
”的 对 象 i 对象、 的 对 象 对象、 





8-5: slab 描述 符 与 对 象 描述 符 之 间 的 关系 


对 齐 内 存 中 的 对 象 
slab 分 配器 所 管理 的 对 象 可 以 在 内 存 中 进行 对 齐 , 也 就 是 说 , 存放 它们 的 内 存单 元 的 起 
始 物理 地 址 是 一 个 给 定常 量 的 代数 ,通常 是 2 的 倍数 ,这 个 常量 就 叫 对 齐 因子 (alignoment 


factor)., 





slab 分 配 姻 所 允许 的 最 大 对 齐 因子 是 4096, 即 页 框 大 小 。 这 就 意味 着 通过 访问 对 象 的 物 
理 地 址 或 线性 地 址 就 可 以 对 齐 对 象 。 在 这 两 种 情况 下 ， 只 有 最 低 的 12 位 才 可 以 通过 对 
齐 来 改变 。 


通常 情况 下 ， 如 果肉 存单 元 的 物理 地 址 是 字 太 小 ( 即 计 算 机 的 内 部 内 存 总 线 的 宽度 ) 对 
齐 的 ,那么 ， 微 机 对 内 存单 元 的 存 取 会 非常 快 。 因 此 ， 缺 省 情况 下 ， 
Kmem_cache_createl) 国 数 根 据 BYTES_PFR_WORD 宏 所 指定 的 字 大 小 来 对 齐 对 象 。 对 于 
80x86 处 理 器 ， 这 个 宏 产 生 的 值 为 4， 因 为 字 长 是 32 位 。 


当 创建 一 个 新 的 Slab 高 速 缓存 时 ,就 可 以 让 它 所 包含 的 对 象 在 第 一 级 硬件 高 速 缓存 中 对 齐 。 
为 了 做 到 这 上 点， 设置 SLAB_HWCACHE_ALIGN 高 速 缓存 描述 件 标 志 。kmem_cache_create1|) 
国 数 接 如 下 方式 处 理 请 求 ， 
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*， ”如 果 对 象 的 大 小 大 于 高 速 缓存 行 (cache line) 的 一 半 , 就 在 RAM 中 根据 Ll_CACHE_BYTES 
的 倍数 (也 就 是 行 的 开始 ) 对 齐 对 象 。 

* 和 否则 ,对象 的 大 小 就 是 L1_CacHE_BYTES 的 因子 取 整 。 这 可 以 保证 一 个 小 对 象 不 会 
横 跨 两 个 高 速 缓存 行 。 


显然 ,slab 分 配器 在 这 里 所 做 的 事情 就 是 以 内 存 空间 换取 访问 时 间 , 即 通过 人 为 地 增加 
对 象 的 大 小 来 获得 较 好 的 高 速 缓存 性 能 ， 由 此 也 引起 额外 的 内 碎片 。 


slab 着色 

从 第 二 章 我 们 知道 , 同一 硬件 高 速 缓存 行 可 以 映射 RAM 中 很 多 不 同 的 块 。 在 本 章 我 们 也 
已 看 到 ， 相 同 大 小 的 对 象 倾向 于 存放 在 高 速 缓存 内 相同 的 偏 移 量 处 。 在 不 同 的 slab 内 有 具 
有 相同 偏 移 量 的 对 象 最 终 很 可 能 上 映射 在 同一 高 速 缓 存 行 中 。 高速 缓存 的 硬件 可 能 因此 而 
花费 内 存 周 期 在 同一 高 速 缓存 行 与 RAM 内 存单 元 之 间 来 来 往往 传送 两 个 对 象 , 而 其 他 的 
高 速 缓存 行 并 未 充分 使 用 。slab 分 配器 通过 一 种 叫做 slab 着 色 (slab coloring) 的 策略 ， 
尽量 降低 高 速 缓存 的 这 种 不 愉快 行为 : 把 叫做 颜色 (color) 的 不 同 随机 数 分 配给 slab。 


在 讨论 slab 着 色 之 前 , 我们 先 看 一 下 高 速 缓存 内 对 象 的 布局 。 让 我 们 考虑 某 个 高 速 缓存 ， 
它 的 对 象 在 RAM 中 被 对 齐 。 这 就 意味 着 对 象 的 地 址 肯定 是 某 个 给 定 正 数值 (比如 说 alm) 
的 倍数 。 连 对 齐 的 约束 也 考 虚 在 内 , 在 slab 内 放置 对 象 就 有 很 多 种 可 能 的 方式 。 方式 的 
选择 取决 于 对 下 别 变 量 所 做 的 决定 : 
nunt 
可 以 在 slab 中 存放 的 对 象 个 数 (其 值 在 高 速 缓存 描述 符 的 num 字段 中 )。 
Oslze 
对 象 的 大 小 ， 包 括 对 齐 的 字 节 。 
dsize 
slap 描 述 符 的 大 小 加 上 所 有 对 象 描述 符 的 大 小 ,就 等 于 硬件 高 速 缓存 行 大 小 的 最 小 
倍数 。 如 果 slab 描述 符 和 对 象 描述 符 都 存放 在 slap 的 外 部 ， 那 么 这 个 值 等 于 0。 


free 


在 slab 内 未 用 字 节 (没有 分 配给 任 一 对 象 的 字 节 ) 的 个 数 。 
-个 slab 中 的 总 字 节 长 度 可 以 表示 为 如 下 表达 式 : 
slab 的 长 度 = (num x osize)tdsize +free 


free 总 是 小 于 osize， 因 为 否则 的 话 ， 就 有 可 能 把 另外 的 对 象 放 在 slab 内 。 不 过 ,， free 可 
以 大 于 aim。 
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slab 分 配器 利用 空闲 未 用 的 字 节 . 疡 ee 来 对 slab 着 色 。 术 语 “ 着 色 ” 只 是 用 来 再 细 分 slab， 
并 允许 内 存 分 配器 把 对 象 展开 在 不 同 的 线性 地 址 之 中 。 这样 的 话 , 内 核 从 微 处 理 器 的 硬 
件 高 速 缓存 中 可 能 获得 最 好 性 能 。 


具有 不 同 颜色 的 slab 把 slab 的 第 一 个 对 象 存 放 在 不 同 的 内 存单 元 ， 同 时 满足 对 齐 约束 。 
可 用 颜色 的 个 数 是 free/aln (这 个 值 存放 在 高 速 缓存 描述 符 的 colour 字段 1。 因 此 ， 第 
一 个 颜色 表示 为 0， 最 后 一 个 颜色 表示 为 (ree/aln) -1。( 一 种 特殊 情况 是 ， 如 果 free 比 
aln 小， 那么 colour 被 设 为 0， 不 过 所 有 slab 都 使 用 颜色 0， 因 此 颜色 真正 的 个 数 为 1.) 


如 果 用 颜色 co! 对 一 个 slab 着 色 , 那么 , 第 一 个 对 象 的 偏 移 量 (相对 于 slab 的 起 始 地 址 ) 
就 等 于 col x aln+dsize 字 节 。 图 8-6 显示 了 slab 内 对 象 的 布局 对 slab 颜色 的 依赖 情况 。 
着 色 本 质 上 导致 把 slab 中 的 一 些 空闲 区 域 从 末尾 移 到 开始 。 


$lab 及 对 





8-6， 具有 颜色 co| 与 对 齐 aln 的 slab 


只 有 当 free 足 够 大 时 ， 着色 才 起 作用 。 显 然 ， 如果 对 象 没 有 请 求 对 齐 , 或 者 如 果 slab 内 
的 未 用 字 节 数 小 于 所 请 求 的 对 齐 (jree < aln)， 那 么 ， 唯 一 可 能 着 色 的 slab 就 是 具有 颜 
色 0 的 slab， 也 就 是 说 ， 把 这 个 slab 的 第 一 个 对 象 的 偏 移 量 赋 为 0。 


通过 把 当前 颜色 存放 在 高 速 缓存 描述 符 的 colour_next 字 段 ,就 可 以 在 一 个 给 定 对 象 类 
型 的 slab 之 间 平 等 地 发 布 各 种 颜色 。cache_grow() 函 数 把 colour_next 所 表示 的 颜色 
赋 给 一 个 新 的 slab， 并 递增 这 个 字段 的 值 。 当 colour_next 的 值 变 为 coloar 后 ， 又 从 
0 开始 。 这样 , 每 个 新 创建 的 slab 都 与 前 一 个 slab 具有 不 同 的 颜色 , 直到 最 太 可 用 颜色 。 
此 外 ，cache_grcw() 国 数 从 高 速 缓存 描述 符 的 colour_off 字 段 获 得 值 aln， 根 据 slab 
内 对 象 的 个 数 计 算 asize, 最 后 把 col xaln+dsize 的 值 存放 到 slab 描 述 符 的 colouroff 
字段 中 。 


空闲 Slab 对 象 的 本 地 高 速 缓 存 
Linux 2.6 对 多 处 理 器 系统 上 slab 分 配器 的 实现 不 同 于 Solaris 2.4 上 最 初 的 实现 。 为 了 
减少 处 理 器 之 间 对 自 旋 锁 的 竞争 并 更 好 地 利用 硬件 高 速 缓 存 , slab 分 配器 的 每 个 高 速 组 
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存 包 含 一 个 被 称 作 slab 本 地 高 速 缓 存 的 每 CPU 数 据 结 构 , 该 结构 由 一 个 指向 被 释放 对 象 
的 小 指针 数组 组 成 。slab 对 象 的 大 多 数 分 配 和 释放 只 影响 本 地 数组 ， 只 有 在 本 地 数组 下 
洲 或 上 洲 时 才 涉 及 slab 数据 结构 。 该 技术 非常 类 似 于 本 章 前 面 的 “每 CPU 页 框 高 速 组 
存 ” 一 市 中 的 技术 。 


高 速 缓存 描述 符 的 array 字段 是 一 组 指向 array_cache 数 据 结构 的 指针 ， 系 统 中 的 每 
个 CPU 对 应 于 一 个 元 素 。 每 个 array_cache 数 据 结构 是 空 阅 对 象 的 本 地 高 速 缓存 的 一 
个 描述 符 ， 它 的 字段 显示 在 表 8-11 中 。 


表 8-11: array_cache 结构 的 字段 


类 型 名 称 说 明 

unsigneqd int avail 指向 本 地 高 速 缓存 中 可 使 用 对 象 的 指针 的 个 数 。 它 同 
时 也 作为 高 速 缓存 中 第 一 个 空 槽 的 下 标 

unsigned int limit 本 地 高 速 缓存 的 大 小 ， 也 就 是 本 地 高 速 缓存 中 指针 的 
最 大 个 数 

unsigned int batchcount 本 地 高 速 缓存 重新 填充 或 腾空 时 使 用 的 块 大 小 

unsigned int touched 如 果 本 地 高 速 缓存 最 近 已 经 被 使 用 过 , 则 该 标志 设 为 1 


注意 ,本 地 高 速 缓存 描述 符 并 不 包含 本 地 高 速 缓存 本 身 的 地 址 ; 事实 上 ,， 它 正好 位 于 摘 
述 符 之 后 。 当 然 ， 本 地 高 速 缓 存 存放 的 是 指向 已 释放 对 象 的 指针 ， 而 不 是 对 象 本 身 ， 对 
象 本 身 总 是 位 于 高 速 缓存 的 slab 中 。 


当 创 建 一 个 新 的 slab 高 速 缓存 时 , kmem_cache_create{) 函 数 决定 本 地 高 速 缓存 的 大 小 
(将 这 个 值 存 放 在 高 速 缓存 描述 符 的 1imit 字 段 中 )、 分 配 本 地 高 速 缓存 ,并 将 它们 的 指 
针 存 帮 在 高 速 缓存 描述 符 的 array 字 段 。 这 个 大 小 取决 于 存放 在 slab 高 速 缓存 中 对 象 的 
大 小 , 范围 从 1 (相对 于 非常 大 的 对 象 ) 到 120 (相对 于 小 对 象 )。 此 外 ，batchcount 字 
段 的 初始 值 , 也 就 是 从 一 个 本 地 高 速 缓存 的 块 里 添加 或 删除 的 对 象 的 个 数 , 被 初始 化 为 
本 地 高 速 缓存 大 小 的 一 半 ( 注 9)。 


在 多 处 理 器 系统 中 , 小 对 象 使 用 的 slab 高 速 缓 存 同 样 包 含 一 个 附加 的 本 地 高 速 缓存 ， 它 
的 地 址 被 存放 在 高 速 缓存 描述 符 的 liscs.shareq 字 段 中 。 共 享 的 本 地 高 速 缓存 正如 候 
的 名 字 暗 示 的 那样 , 被 所 有 CPU 共享 , 它 使 得 将 空闲 对 象 从 一 个 本 地 高 速 缓存 移动 到 另 
一 个 高 速 缓存 的 任务 更 容易 【参见 下 一 节 )。 它 的 初始 大 小 等 于 batchcount 字 段 的 值 的 
8 倍 。 


注 9: 系 姚 管理 员 通 过 写 入 /procw/rlabinfo 文 件 可 以 为 每 个 高 束 键 存 调 整 本 地 高 束 鲁 在 的 大 小 以 
及 batchcount 字段 的 值 ， 
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分 配 slab 对 象 


通过 调用 kmem_cache_alloc() 函 数 可 以 获得 新 对 象 。 参 数 cachep 指向 高 速 缓存 描述 
符 , 新 空闲 对 象 必 须 从 该 高 速 缓存 描述 符 获 得 , 而 参数 flag 表 示 传 递 给 分 区 页 框 分 配器 
国 数 的 标志 ， 该 高速 缓存 的 所 有 slab 应 当 是 满 的 。 


该 函数 本 质 上 等 价 于 下 列 代码 : 


voild * kmem cache_allocikmem cache_t *cachep, int flags) 
[f 

unsigned long save flags; 

Void *obip: 

struct array_ cache *ac: 


local_irg_savelsave_flags); 

ac = Cache_p->array [smp_ processor_idil)]: 

if (ac-xavail) { 
ac->toOuched = 1; 
objp = ((void **}) (ac+1)) [--ac->availl: 

} else ， 
objp = cache_alloc _refillicachep, flags)}): 

local_irg restorelsave flags); 

return obijp:; 

| 


国 数 首先 试图 从 本 地 高 速 缓存 获 得 一 个 空 亲 对象。 如 果 有 空闲 对 象 , avail1 字 段 就 包含 指 
向 最 后 被 释放 的 对 象 的 项 在 本 地 高 速 缓存 中 的 下 标 。 因 为 本 地 高 速 缓存 数组 正好 存放 在 
ac 描述 符 后 面 ， 所 以 {{voidx*) (ac+1))[--ac->avail] 获 得 那个 空闲 对 象 的 地 址 并 递 
减 ac->avail 的 值 。 当 本 地 高 速 缓存 中 设 有 空 亲 对 象 时 ， 调 用 cache_alloc_refill 1|) 
国 数 重新 填充 本 地 高 速 缓存 并 获得 一 个 空间 对 象 。 


cache_alloc_refilll() 国 数 本 质 上 执行 如 下 步 景 ， 

1. 将 本 地 高 速 缓存 描述 符 的 地 址 存放 在 ac 局 部 变量 中 : 
At = cachep->array [smp_processor_idr})|]:; 

2， 获得 cachep->spinlock。 


3. 如果 slab 高 速 缓存 包含 共享 本 地 高 速 缓存 ,并 且 该 共享 本 地 高 速 缓存 包含 一 些 空 闲 
对 象 , 国 数 就 通过 从 共享 本 地 高 速 缓存 中 上 移 ac->batchcount 个 指针 来 重新 填充 
CPU 的 本 地 高 速 缓存 。 然 后 ， 国 数 跳 到 第 6 步 。 

4. 国 数 试 图 填充 本 地 高 速 缓存 ， 填 充值 为 高 速 缓 存 的 slab 中 包含 的 多 达 a c 
->batchcount 个 空闲 对 象 的 指针 : 

a。 查 看 高 速 缓存 描述 符 的 slabs_partial 和 slabs_free 链 表 , 并 获得 slab 描述 
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符 的 地 址 slabp, 该 slab 描 述 符 的 相应 slab 或 者 部 分 被 填充 , 或 者 为 空 。 如果 
不 存在 这 样 的 描述 和 罕 ， 则 函数 转 到 第 5 步 。 
b. 对 于 slab 中 的 每 个 室 闲 对 象 ， 国 数 增加 slab 描述 符 的 inuse 字 段 ， 将 对 象 的 地 
址 插 人 本 地 高 速 缓存 ， 并 更 新 free 字 段 使 得 它 存放 了 slab 中 下 一 个 空间 对 象 
的 下 标 : 
slabtp->inNnuse++;} 
(tveid**) (ac+1)) [ac->avail++] = 
slabp->»>s_mem + slabp-»>free * cachep->o0b1_size: 
slatp->free = {{({kmem_bufctl_t*) lslabp+l1)}) [slabp->freel:; 
c. 如 果 必 要 , 将 清空 的 slab 插 入 到 适当 的 链表 上 ， 可 以 是 slab_ful1 链表 , 也 可 
以 是 slab_partial 链表 。 


5. 在 这 一 步 , 被 加 到 本 地 高 速 缓存 上 的 指针 个 数 被 存放 在 ac->avail 字 有 段 : 国 数 递减 
同样 数量 的 kmem_1ist3 结构 的 free_objects 字段 来 说 明 这 些 对 象 不 再 空 朵 。 

6. 释放 cachep->spinlock。 

7. 如果 现在 ac->avail 字段 大 于 0 (一 些 高 速 缓存 再 填充 的 情况 发 生 了 )， 国 数 将 
ac->touched 字 段 设 为 1， 并 返回 最 后 揪 人 到 本 地 高 速 缓存 的 空 困 对 象 指 针 : 

return ({void**) (ac+l1})[--ac->avalll]:; 

8. 否则， 没有 发 生 任何 高 速 缓存 再 填充 情况 : 调用 cache_grow() 获 得 一 个 新 slab， 
从 而 获得 了 新 的 空闲 对 象 。 

9. 如 果 cache_grow() 失 败 了 , 则 国 数 返 回 NULL 否则 它 返 回 到 第 1 步 重复 该 过 程 。 


释放 Slab 对 象 
kmem_cache_freel() 困 数 释 放 一 个 曾经 由 slab 分 配 绢 分 配给 某 个 内 核 国 数 的 对 象 。 它 的 
参数 为 cachep 和 objp, 前 者 是 高 速 缓存 描述 符 的 地 址 , 而 后 者 是 将 被 释放 对 象 的 地 址 : 
Void kmem cache freel(kmem cache 全 *cachep, void *obijp) 
t 


unsilgned long flags:; 
struct array_cache *ac; 


local_irg save(flags):; 
ac = cachep->array [smp_processor_idi(}]: 


if (ac-=>avail == ac->]imit) 
cache flusharray (cachep, ac}: 
( {vold**) [ac+1)) [ac->avall++] = bijp; 


local_irg restorelflags); 
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函数 首先 检查 本 地 高 速 缓存 是 否 有 空间 给 指向 一 个 空 闪 对 象 的 额外 指针 。 如 果 有 , 该 指 
针 就 被 加 到 本 地 高 速 缓存 然后 国 数 返回 。 否 则 ， 它 首先 调用 cache_flusharray () 来 清 
空 本 地 高 速 缓存 ， 然 后 将 指针 加 到 本 地 高 速 缓存 。 


cache_flusharray() 国 数 执行 如 下 操作 : 


1. 获得 cachep->spinlock 自 旋 锁 。 


2. 如 果 slab 高 速 缓存 包含 一 个 共享 本 地 高 速 缓存 ,并 且 如 果 该 共享 本 地 高 速 组 存 还 没 
有 满 , 国 数 就 通过 从 CPU 的 本 地 高 速 缓存 中 上 移 ac->bacchcount 个 指针 来 重新 填 
充 共享 本 地 高 速 缓 存 。 


3. 调用 free_block() 国 数 将 当前 包含 在 本 地 高 速 缓 存 中 的 ac->batchcount 个 对 象 
归还 给 slab 分 配器 。 对 于 在 地 址 objp 处 的 每 个 对 象 ， 国 数 执行 如 下 步骤 : 


a. 增加 高 速 缓存 描述 符 的 1ists.free_objects 字 段 。 
b. 确定 包含 对 象 的 slab 描述 符 的 地 址 ; 
slabp = (struct slab *) {virt_to pace (objpl->lru.prev}} 
(请 记 住 ，slab 页 的 描述 符 的 1ru .prev 字 段 指 向 相应 的 slab 描述 符 。) 
c， 从 它 的 slab 高 速 缓存 链表 (cachep->lists.slabs_partial 或 是 cachep-> 
lists.slabs_full) 上 删除 slab 描述 符 。 
d， 计算 slab 内 对 象 的 下 标 : 
obinr = (obip -=- slabp->s_mem} / cachep->objsize; 
e。 将 slabp->free 的 当前 值 存放 在 对 象 描述 符 中 , 并 将 对 象 的 下 标 放 入 slabp-> 
free (最 后 被 释放 的 对 象 将 再 次 成 为 首先 被 分 配 的 对 象 ) : 


{{kmem bufctl t *) (slabp+1})} [objnr] = slabp->free; 
slabp->free = objnr; 


f. 递减 slabp->inuse 字段 。 


g. 如 果 slabp->inuse 等 于 0 (也 就 是 slabb 中 所 有 对 象 空间 ), 并 且 整 个 slab 高 速 组 
存 中 空闲 对 象 的 个 数 (cachep->lists.free_objects) 大 于 cachep->free_ limit 
字段 中 存放 的 限制 ， 那 么 函数 将 slab 的 页 框 释放 到 分 区 页 框 分 配器 : 

cachep-=>lists.free_objects -= cachep->num; 

slab destroy (cachep, slabp).: 
存放 在 cachep->free_limit 字段 中 的 值 通 党 等 于 cachep->num+ (1+N) x 
cachep->batchcount， 其 中 入 代表 系统 中 CPU 的 个 数 。 


h. 否则 ， 和 如果 slab->inuse 等 于 0， 但 整个 slab 高 速 缓 存 中 空闲 对 象 的 个 数 小 于 
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cachep->free limit , 国 数 就 将 Slab 描述 符 插 人 到 cachep->lists.slabs_free 
链表 中 。 
i. 最 后 ， 如 果 slab->inuse 大 于 0，slab 被 部 分 填充 , 则 函数 将 slab 接 述 符 插入 
到 cachep->lists.slabs_partial 链表 中 ，。 
4. 释放 cachep->spinlock 自 旋 锁 。 
5. 通过 碱 去 被 移 到 共享 本 地 高 速 缓存 或 被 释放 到 slab 分 配器 的 对 象 的 个 数 来 更 新 本 地 
高 速 缓存 描述 符 的 avail 字段 。 
6. 移动 本 地 高 速 缓 存 数组 起 始 处 的 那个 本 地 高 速 缓存 中 的 所 有 指针 。 这 一 步 是 必需 的 ， 
因为 已 经 把 第 一 个 对 象 指 针 从 本 地 高 速 缓存 上 删除 ， 因 此 剩 下 的 指针 必须 上 移 。 


通用 对 象 


正如 “伙伴 系统 算法 ”一 市 中 所 描述 的 那样 如果 对 存储 区 的 i -组 普 : 
高 速 组 存 来 处 理 ， 普 通 高 速 级 在 中 的 对 象 具有 几何 分 布 的 大 小 ， 范围 为 32 二 131072 字 节 。 


调用 kmalloc!) 国 数 就 可 以 得 到 这 种 类 型 的 对 象 ， 国 数 等 价 于 下 列 代码 睛 段 : 





VOld * kmalloctlsize_t size, int flags} 
{ 
struct cache_sizes *csizep = malloc sizes:; 
kmem cache t * cachep; 
for (; csizep->cs_SsSize; csizeprr) 
if {size » csizep-»>cs_ size) 
continue: 
if (flags & _ _GFP DMA) 
cachep = cslilzep->cs_ dmacachep; 
尼 二 与 所 
caAchep = cSlZep->cs_ cachep; 
return kmem _ cache alloc(lcachep, flags); 
) . 
return NULL: 


该 国 malloc_ sizes 表 为 所 请 求 的 大 小 分 配 最 近 的 2 的 寡 次 方 大 小 的 内 存 。 然 后 ， 
调用 kmem_cache_alloc{} 分 配对 象 ， 传 递 的 参数 或 者 为 适用 于 ISA DMA 页 框 的 高 速 
缓存 描述 符 , 或 者 为 适用 于 “常规 ”页 框 的 高 速 缓存 描述 符 , 这 取决 于 调用 者 是 否 指 定 
了 __GFP_DMA 标志 。 





调用 kmalloc!) 所 获得 的 对 象 可 以 通过 调用 kfree() 来 释放 ， 


void kfreelconst void *obip) 
{ 


kmem cache t * cg; 
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unsigned long flags; 
if (tobijp) 
Teturn:; 
local_irq save{flags}:; 
c= (kmem cache t 二 (virt to page(objp) ->1ru,.next):; 
kmem_cache freetc, lvoid *})obijp}; 
local_irg_ restore(flags}),; 


} 


通过 读 取 内 存 区 所 在 的 第 一 个 页 框 描述 符 的 1ru.next 子 字段 ， 就 可 确定 出 合适 的 高 速 
缓存 描述 符 。 通 过 调用 kmem_cache_free() 来 释放 相应 的 内 存 区 。 


内 存 池 


内 存 池 (memory pool) 是 Linux 2.6 的 一 个 新 特性 。 基 本 上 讲 ， 一 个 内 存 池 区 许 一 个 内 
核 成 分 , 如 块 设备 子 系统 , 仅 在 内 存 不 足 的 紧急 情况 下 分 配 一 些 动态 内 存 来 使 用 。 


不 应 该 将 内 存 字 与 前 面 “ 保 留 的 页 框 地 ”一 节 中 描述 的 保留 页 框 混 请 。 实 际 上 这 些 页 框 
用 于 满足 中 断 处 理 程 序 或 内 部 临界 区 发 出 的 原子 内 存 分 配 请 求 .而 内 存 池 是 动态 内 
存 的 储备 ， 只 能 被 特定 的 内 核 成 分 ( 即 池 的 “拥有 者 ”) 使 用 。 拥 有 者 通常 不 使 用 储备 ， 
但 是 ,如 果 动 态 内 存 变 得 极其 稀有 以 至 于 所 有 普通 内 存 分 配 请 求 都 将 失败 的 话 ， 那 么 作 
为 最 后 的 解决 手段 , 内 核 成 分 就 能 调用 特定 的 内 存 袖 函 数 提取 储备 得 到 所 需 的 内 存 。 因 
此 , 创建 一 个 内 存 字 就 像 手 头 存 放 一些 鲍 装 食 物 作为 储备 , 当 没 有 新 鲜 食物 时 就 使 用 开 
护 问 。 





一 个 内 存 池 常 常 个 加 在 slab 分 配器 之 上 一 一 也 就 是 说 , 它 被 用 来 保存 slab 对 象 的 储备 。 
但 是 一 般 而 言 ， 内 存 池 能 被 用 来 分 配 任何 一 种 类 型 的 动态 内 存 ， 从 整个 页 框 到 使 用 
xmalloc 0 分 配 的 小 内 存 区 .因此 ,我 们 二 般 将 内 存 地 处 理 的 内 存单 元 看 作 * 内 存 元 素 "。 


内 存 池 由 mempool_t 对 象 描述 ， 它 的 字段 如 表 8$-12 所 示 。 
表 8-12:， mempool_t 对 象 的 字段 


类 型 名 称 说 明 

spinlock_t lock 用 来 保护 对 象 字 段 的 自 旋 锁 

int min_nr 内 存 池 中 元 素 的 最 大 个 数 

int Curr_ Nr 当前 内 存 池 中 元 素 的 个 数 

WO 了 QQ 全 六 elements 指向 一 个 数组 的 指针 , 该 数组 由 指向 保留 元 素 的 指 
针 组 成 

void * Pool_data  ” 袍 的 拥有 者 可 获得 的 私有 数据 

mempool_alloc_t * alloc 分 配 一 个 元 素 的 方法 
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表 8-12: mempool_t 对象 的 字段 ( 续 ) 


类 型 名 称 说 明 
mempool_free_t * free 释放 一 个 元 素 的 方法 
wait_queue_head_t wait 当 内 存 字 为 空 时 使 用 的 等 待 队 列 


min_nr 字 段 存 放 了 内 存 字 中 元 素 的 初始 个 数 。 换 句 话说 , 存放 在 该 字段 中 的 值 代 表 了 内 
存 元 素 的 个 数 , 内 存 字 的 拥有 者 确信 能 从 内 存 分 配器 得 到 这 个 数目 。curr_nr 字 段 总 是 
低 于 或 等 于 min_nr, 它 存放 了 内 存 字 中 当前 包含 的 内 存 元 素 个 数 。 内 存 元 素 自身 被 一 个 
指针 数组 引用 ， 指 针 数 组 的 地 址 存放 在 elements 字段 中 。 


alloc 和 free 方 法 与 基本 的 内 存 分 配器 进行 交互 , 分 别 用 于 获得 和 释放 一 个 内 存 元 素 。 
两 个 方法 可 以 是 拥有 内 存 池 的 内 核 成 分 提供 的 定制 函数 。 


当 内 存 元 素 是 slab 对 象 时 ,alloc 和 free 方 法 一 般 由 mempool_alloc_slab()} 和 mempool_ 
free_slablfl) 国 数 实 现 ， 它 们 只 是 分 别 调用 kmem_cache_alloc() 和 kmem_cache_ 
free() 国 数 。 在 这 种 情况 下 ，mempocl 上 对 象 的 Pocol_aata 字 段 存 放 了 slab 高 速 缓存 描述 
符 的 地 址 。 


mempoo01_create() 函数 创建 一 个 新 的 内 存 池 ，; 它 接收 的 参数 为 内 存 元 素 的 个 数 
min_nr、 实 现 alloc 和 free 方 法 的 函数 的 地 址 和 赋 给 pool_gdata 字段 的 任意 值 。 读 函数 
分 别 为 mempool 上 对 象 和 指 疝 内 存 元 素 的 指针 数组 分 配 内 存 , 然后 反复 调用 al1oc 方 法 来 
得 到 min_nr 个 内 存 元 素 。 相 反 地 ，mempool_destroy() 销 数 释 放 池 中 所 有 内 存 元 素 ， 然 
后 释放 元 素数 组 和 mempool_t 对 象 自己 。 


为 了 从 内 存 褐 分 配 一 个 元 素 ， 内 核 调用 mempool_alloc1{) 函 数 ， 将 mempool_t 对 象 的 地 
址 和 内 存 分 配 标志 传递 给 它 (参见 本 章 前 面 的 表 8-5 和 表 8-6)。 函 数 本 质 上 依据 参数 所 
指定 的 内 存 分 配 标 志 ， 试 图 通过 调用 alloc 方 法 从 基本 内 存 分 配器 分 配 一 个 内 存 元 素 。 
如 果 分 配 成 功 ， 冰 数 返回 获得 的 内 存 元 素 而 不 触及 内 存 池 。 否 则 ， 如 果 分 配 和 失败 ,就 从 
内 存 池 获得 内 存 元 素 。 当 然 ， 在 内 存 不 足 的 情况 下 过 多 的 分 配 会 用 尽 内 存 地 : 在 这 种 情 
况 下 , 如 果 _ _GFP_WaIT 标 志 设 有 置 位 , 则 mempcol_alloc() 阻 塞 当 前 进程 直到 有 一 个 内 
存 元 素 被 释放 到 内 存 字 中 。 


相反 地 ， 为 了 释放 一 个 元 素 到 内 存 池 ， 内 核 调 用 mempocl_freet) 国 数 。 如 果 内 存 闻 未 
福 (curr_min 小 于 min_nr)， 则 函数 将 元 素 加 到 内 存 池 中 。 否 则 ，mempool_free() 调 
用 free 方 法 来 释放 元 素 到 基本 内 存 分 配器 。 
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非 连续 内 存 区 管理 


从 前 面 的 讨论 中 我 们 已 经 知道 , 把 内 存 区 映射 到 一 组 连续 的 页 框 是 最 好 的 选择 , 这 样 会 
下 不 过 ,如 果 对 内 存 区 的 请 求 不 是 很 频繁 ， 

性 地 址 来 访 间 韭 连 统 的 页 框 这 样 一 种 分 配 模式 就 会 很 有 意义 。 这 种 
模式 的 主要 优点 是 避免 了 外 弹片， 而 钠 点 是 必须 打 乱 内 核 页 麦 。 显然 非 连 续 内 存 区 的 
大 小 必须 是 4096 的 倍数 。Linux 在 几 个 方面 使 用 非 连续 内 存 区 ,例如 ,为 活动 的 交换 区 
分 配 数据 结构 (参见 第 十 七 章 中 的 “向 活 和 禁用 交换 区 ”一 节 )， 为 模块 分 配 空 闻 ( 参 
见 附录 二 ), 或 者 给 菏 些 UVO 虹 动 程序 分 配 疆 冲 区 。 此 外 , 非 连 续 内 存 区 还 提供 了 另 一 种 
使 用 高 端 内 存 页 框 的 方法 (参见 后 面 的 “分 配 非 连续 内 存 区 ”一 节 )。 





非 连续 内 存 区 的 线性 地 址 


要 查找 线性 地 址 的 一 个 空间 区 ， 我 们 可 以 从 PAGE_OFFSET 开始 查找 (通常 为 
0xc0000000, 即 第 4 个 GB 的 起 始 地 址 )。 图 8-7 显 示 了 如 何 使 用 第 4 个 GB 的 线性 地 址 : 


。 ”内 存 区 的 开始 部 分 包含 的 是 对 前 896MB RAM 进行 映射 的 线性 地 址 (参见 第 二 章 
“进程 页 表 ” 一 节 )， 直接 映射 的 物理 内 存 末 尾 所 对 应 的 线性 地 址 保存 在 
high_memory 变量 中 。 

。 ”内 存 区 的 结尾 部 分 包含 的 是 固定 映射 的 线性 
址 ”一 

* 从 PKMAP_BASE 开始 ， 我 们 查找 用 于 高 丹 内 存 贝 框 的 永久 内 核 映 射 的 线性 地 址 
(参见 本 章 前 面 asp 二 志 一 

*。 其余 的 线性 地 址 可 以 用 于 非 连 续 内 存 区 。 在 物理 内 存 映 射 的 末尾 与 第 一 个 内 存 区 之 
间 揪 入 一 个 大 小 为 8MB ( 安 VMALLOC_OFFSET) 的 安全 区 , 目的 是 为 了 “捕获 ” 
对 内 存 的 越 寞 访 回 。 出 于 同样 的 理由 , 插入 其 他 4KB 大 小 的 安全 区 来 隔离 非 连续 
的 内 存 区 ， 


(参见 第 二 章 “固定 映射 的 线性 地 





high memory FIXADDR START 
PAGE OFFSET VMALLOC START VMALLOC END PKMAP BASE 


固定 觅 射 ; 
的 线性 


ivmallot 区 -4 van 区 i 





8-7: 从 PAGE_OFFSET 开始 的 线性 地 址 区 间 


一 ns 


为 非 连 续 内 存 区 保留 的 线性 地 址 空间 的 起 始 地 址 由 VYMALLOC_STaART 安 定义 ,而 末尾 地 
址 由 VMALLOC_EMND 安定 义 。 


非 连续 内 存 区 的 描述 符 
每 个 非 连续 内 存 区 都 对 应 着 一 个 类 型 为 vm_struct 的 描述 符 , 表 8-13 列 出 了 它 的 字段 。 
表 8-13:，vm_struct 描述 符 的 字段 


类 型 名 称 说 明 

void * adar 内 存 区 内 第 一 个 内 存单 元 的 线性 地 址 

unsigned long size 内 存 区 的 大 小 加 4096 (内 存 区 之 间 的 安全 区 则 的 
大 小 ) 

unsigned long flags 非 连 续 内 存 区 映射 的 内 存 的 类 型 

struct page ** pages 指向 nr_pages 数组 的 指针 ， 该 数组 由 指向 页 摘 
述 符 的 指针 组 成 

unsigned int nr_pages 内 存 区 填充 的 页 的 个 数 

unsigned long phys_addr 该 字段 设 为 0， 除 非 内 存 已 被 创建 来 映射 一 个 硬 
件 设 备 的 MO 共享 内 存 

struct vm struct * next 指向 下 一 个 vm_struct 结构 的 指针 


通过 next 字段 ， 这 些 描述 符 被 插入 到 一 个 简单 的 链表 中 ， 链 表 第 一 个 元 素 的 地 址 存放 
丰 Ei 变量 中 。 对 这 个 链表 的 访问 依靠 vmlist_lock 读 / 写 自 旋 锁 来 保护 。f1lags 字 
段 标 识 了 非 连 续 区 映射 的 内 存 的 类 型 ，VM_ALLOC 表示 使 用 vmalloc() 得 到 的 页 ， 
VM_MAP 表示 使 用 vmap () 映 射 的 已 经 被 分 配 的 页 (参见 下 一 节 ), 而 VM_IOREMAP 表 
示 使 用 ioremap () 映 射 的 硬件 设备 的 板 上 内 存 (参见 第 十 三 章 )。 


get_Vvm_areal) 图 数 在 线性 地 址 VMALLOC_STRART 和 VMALLOC_END 之 间 查 找 一 个 空 
朵 区 域 . 该 函数 使 用 两 个 参数 ; 将 被 创建 的 内 存 区 的 字 节 大 小 (size) 和 指定 空间 区 类 
型 (参见 上 面 ) 的 标志 (fl1ag)。 步 又 执行 如 下 : 





2. 为 写 得 到 vmlist_lock 锁 ,并 扫描 类 型 为 vm_struct 的 描述 符 链表 来 查找 线性 地 
址 一 个 空闲 区域 ， 至少 覆盖 size + 4096 个 地 址 (4096 是 内 存 区 之 间 的 安全 区 间 
大 小 )。 


3. 如 果 存 在 这 样 一 个 区 间 ， 国 数 就 初始 化 描述 符 的 字段 ， 释 放 vmlist_lock 锁 ,并 


以 返回 这 个 非 连续 内 存 区 的 结束 。 
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4. 否则 ，get_vm_areal) 释 放 先 前 得 到 的 描述 符 ， 释 放 vmlisc_lock， 然 后 返回 


NUDTL 。 


分 配 非 连续 内 存 区 


vmallocl) 国 数 给 内 核 分 配 一 个 非 连续 内 存 区 。 参数 size 表 示 所 请 求 内 存 区 的 大 小 。 如 
果 这 个 函数 能 够 满足 请 求 ， 就 返回 新 内 存 区 的 起 始 地 址 ， 否则 ， 返 回 一 个 NULL 指针 :4 


void * vmalloclunasigned long size) 
{ 
Struct vm _ struct *area: 
struct page **pages; 
unsigned int array_size, i: 
gize = (size + PAGE_SIZE -= 1} & PAGE MASK; 
area = get_vm arealsize, VM_ALLOC).; 
if (lareal 
return NULL:; 
area->nr pAaAges = Slize »» PAGE SHIFT:; 
array_size = (area->nr_ pages * sizeof {struct page *)); 
area->pages = Bages = kmalloclarray_size, GFP KERNEL),; 
if (larea_pages) I 
remove_Vvm_arealarea->addr}):; 
kfreelarea}} 
return NULL: 
} 
memset (area->pages, 0, array_size):; 
for (i=0;: i<Area->nr pages; 1++}) 1{ 


Area->pages [i] = alloc page (GFP_ KERNEL|_ _GFP_HIGHMEM).; 
if (iarea->pages[i]}) 1 
area->nr_pages = i; 
fail: vfreelarea->addr):; 


return NULL; 
】 
} 
if imap_ vm arealarea, _ _Ppgprot (0x63), &pagesl)) 
goto fail; 
return area->addr; 


] 


函数 首先 将 参数 size 设 为 4096 (页 框 大 小 ) 的 整数 倍 。 然 后 ，vmalloc() 调 用 
get_vm_area() 来 创建 一 个 新 的 描述 符 , 并 返回 分 配给 这 个 内 存 区 的 线性 地 址 。 描述 符 
的 flags 字 段 被 初始 化 为 VM_ALLOC 标 志 ， 该 标志 意味 着 通过 使 用 vmalloc() 国 数 , 非 连 
续 页 框 将 被 映射 到 一 个 线性 地 址 区 间 。 然 后 vmallocc() 国 数 调 用 kmalloc() 来 请 求 一 组 
连续 页 框 ， 这 组 连续 页 框 足够 包含 一 个 页 描述 符 指 针 数 组 。 调 用 memset ( ) 函数 来 将 所 
有 这 些 指针 设 为 NULL。 接 着 重复 调用 alloc_page() 国 数 ， 每 一 次 为 区 间 中 nr_pages 
个 页 的 每 一 个 分 配 一 个 页 框 , 并 把 对 应 页 描述 符 的 地 址 存放 在 area->pages 数 组 中 。 注 
意 , 必须 使 用 area->pages 数组 是 因为 页 框 可 能 属于 ZONE_HIGHMEM 内 存 管 理 区 ， 所 


以 此 时 它们 不 必 被 映射 到 一 个 线性 地 址 上 。 
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现在 到 了 坏 手 的 部 分 。 直 到 这 里 ， 已 经 得 到 了 一 个 新 的 连续 线性 地 址 区 间 , 并 且 已 经 分 
配 了 一 组 非 连续 页 框 来 映射 这 些 地 后 至 关 重 要 的 步 又 是 修改 内 核 使 用 的 页 表 
项 , 以 此 表明 分 配给 非 连 续 内 存 区 的 每 个 页 框 现在 对 应 着 一 个 线性 地 址 , 这 个 线性 地 址 
被 包含 在 vmalloc() 产 生 的 非 连 续 线 性 地 址 区 间 中 。 这 就 是 map_vm_area() 所 要 做 的 。 





map_vm_arealt) 国 数 使 用 以 下 3 个 参数 : 
总 工 芭 已 
指向 内 存 区 的 vm_struct 描述 符 的 指针 。 


prot 


已 分 配 页 框 的 保护 位 。 它 总 是 被 置 为 0x63 ， 对 应 着 Present, Accessed, Read/ 
Write 有 Dirty, 


pages 
指向 一 个 指针 数组 的 变量 的 地 址 , 该 指针 数组 的 指针 指向 页 描述 符 (因此 , struct 
page *** 被 当 作 数据 类 型 使 用 |! )。 

图 数 首先 把 肉 存 区 的 开始 和 末尾 的 线性 地 址 分 别 分 配给 局 部 变量 address 和 end; 


address = area->addr: 
end = address + (area->Sl7Ze - PAGE SIZE):; 


请 记 住 ,area->size 存 放 的 是 内 存 区 的 实际 地 址 加 上 4KB 内 存 之 间 的 安全 区 间 。 然 后 
函数 使 用 pgd_offset_k 宏 来 得 到 在 主 内 核 页 全 局 目录 中 的 目录 项 ,该 项 对 应 于 内 存 区 
起 始 线性 地 址 ， 然 后 获得 内 核 页 表 自 旋 锁 ， 


pgqd = pgd offset kladdress): 
spin_lock(g&init mm.page table lock}):; 


然后 ， 函 数 执行 下 列 循环 . 


int ret = 0: 


for {i = pgd index(laddress}; i < pgd indexlend-1}; i++) 1 
Bud_ t *pud = pud alloc (ginit mm, pgd, address}: 
ret = -ENOMEM:; 
if (i!pud) 
break,; 
next = (address + POGDIR_SIZE) & PODIR MASK; 
if (next < address || next > end) 


next = end:; 

if (map_area_pud{pud, address, next, prot, pages)) 
break: 

address = next:; 

Pgd++} 

ret = 全; 
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spin unlock (ginit_mm.page_table_lock}; 
flush _ cache vmap( (lunsigned long)area->addr, end}} 
return ret; 


每 次 循环 都 首先 调用 pud_alloc() 来 为 新 内 存 区 创建 一 个 页 上 级 目录 ,并 把 它 的 物理 地 
址 写 人 内 核 页 全 局 目录 的 合适 表 项 。 然 后 调用 alloc_area_pud{) 为 新 的 页 上 级 目录 分 
配 所 有 相关 的 页 表 。 接 下 来 ,把 常量 2” (在 PAE 被 激活 的 情况 下 , 否则 为 2**) 与 address 
的 当前 值 相 加 (2 就 是 一 个 页 上 级 目录 所 跨越 的 线性 地 址 范围 的 大 小 ), 最 后 增加 指向 
页 全 局 目录 的 指针 pga。 


循环 结 东 的 条 件 是 : 指向 非 连 续 内 存 区 的 所 有 页 表 项 全 被 建立 。 
map_area_pud{() 国 数 为 页 上 级 目录 所 指向 的 所 有 页 表 执 行 一 个 类 伺 的 循环 : 


do { 
PIG * pmd = pmd_alloc{tginit _ mm, Bud, address):; 
if ({!pmd) 


return -ENOMEM:; 
if (map _ area_pmd(lpmd, address, end-address, prot, pages!}) 
return -ENOMEM; 
address = {address + PUD _SIZE) & PUD MASK: 
Bud++} 
} while (laddress < end): 


map_area_pmd {) 函数 为 页 中 间 目 录 所 指向 的 所 有 页 表 执 行 一 个 类 似 的 循环 : 


do 1 

pte t * pte = pte_alloc_kernel (&init_mm, pmd, address}; 

if (tipte) 
return -ENOMEM; 

if map_area ptelpte, address, end-address, prot, pages})) 
return -ENOMEM; 

address = laddress + PMD SIZE) & PMD MASK:; 

BmAG++} 


} while taddress < end); 


pte_alloc_kernel () 国 数 (和 参见 第 二 章 的 “页 表 处 理 ” 一 节 ) 分 配 一 个 新 的 页 表 ， 并 
更 新 页 中 间 目 录 中 相应 的 和 目录 项 。 接 下 来 ，map_area_pte() 为 页 表 中 相应 的 表 项 分 配 
所 有 的 页 框 。address 值 增加 2”(2*“* 就 是 一 个 页 表 所 跨越 的 线性 地 址 区 间 的 大 小 ), 并 
且 循 环 反 复 执行 。 


map_area_pte() 的 主 循环 为 : 


do 上 
struct page * page = **pages; 
set_pte(lpte, mk_ptelpage, prot}}: 
address += PAGE SIZE; 
Bte++t+; 
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{*pages}++; 
} while iaddress < end),; 
和 将 被 映射 的 页 框 的 页 描述 符 地 址 page 是 从 地 址 pages 处 的 变量 指向 的 数组 项 读 得 的 。 
通过 set_pte 和 mk_pte 宏 ， 把 新 页 框 的 物理 地 址 写 进 页 表 。 把 常量 4096 ( 即 一 个 页 框 
的 长 座 ) 加 到 aqdress 上 之 后 ， 循 环 又 重复 执行 。 


注意 ，map_vm_areal) 并 不 触及 当前 进程 的 页 表 。 因 此 ,， 当 内 核 态 的 进程 访问 非 连续 内 
存 区 时 , 缺 页 发 生 ， 因 为 该 内 存 区 所 对 应 的 进程 页 表 中 的 表 项 为 空 。 然 而 , 缺 页 处 理 程 
序 要 检查 这 个 缺 页 线性 地 址 是 否 在 主 内 核 页 表 中 (也 就 是 init_mm.pgd 页 全 局 目录 和 它 
的 子 页 表 ， 参 见 第 二 章 “ 内 核 页 表 ” 一 厄 )。 一 旦 处 理 程序 发 现 一 个 主 内 核 页 表 含 有 这 
个 线性 地 址 的 非 空 项 ,就 把 它 的 值 拷贝 到 相应 的 进程 页 表 项 中 ,并 恢复 进程 的 正常 执行 。 
这 种 机 制 将 在 第 九 章 “ 缺 页 异常 处 理 程序 ”一 节 描 述 。 


除了 vmalloc() 国 数 之 外 ， 非 连续 内 存 区 还 能 由 vmalloc_321) 国 数 分 配 ， 该 国 数 与 
vmallocf) 很 相似 ， 但 是 它 只 从 ZONE_NORMAL 和 ZONE_DMA 内存 管理 区 中 分 本 页 框 。 


Linux 2.6 还 特别 提供 了 了 一 个 vmap{() 国 数 ， 它 将 映射 非 连续 内 存 区 中 已 经 分 配 的 页 框 : 
本 质 上 , 该 函数 接收 一 组 指向 页 摘 述 符 的 指针 作为 参数 , 调用 get_vm_area() 得 到 一 个 新 
vm_struct 描述 符 ， 然 后 调用 map_vm_area() 来 映射 页 框 。 因 此 该 消 数 与 vmalloc() 相 似 ， 
但 是 它 不 分 配 页 框 。 


释放 非 连续 内 存 区 


vfree() 函数 释放 vmalloc() 或 vmalloc_321() 创 建 的 非 连续 内 存 区 ， 而 vunmap () 国 数 
释放 vmap() 创 建 的 内 存 区 。 两 个 函数 都 使 用 同一 个 参数 一 一 将 要 释放 的 内 存 区 的 起 始 
线性 地 址 aaaressi 它们 都 依赖 于 __vunmap() 国 数 来 做 实质 性 的 工作 。 


__vunmap() 国 数 接收 两 个 参数 : 将 要 释放 的 内 存 区 的 起 始 地 址 的 地 址 aadqr， 以 及 标志 

deallocate_pages， 如 果 被 映射 到 内 存 区 内 的 页 框 应 当 被 释放 到 分 区 页 框 分 配器 (调用 

vfree{)) 中 ， 那 么 这 个 标志 被 置 位 ， 否则 被 清除 (vunmap() 被 调用 )。 读 范 数 执行 以 下 

操作 : 

] . 调用 remove_vm_areaft) 国 数 得 到 vm_struct 描述 符 的 地 址 area， 并 清除 非 连续 
内 存 区 中 的 线性 地 址 对 应 的 内 村 的 页 表 项 。 

2,， 如 果 deallocate_pages 被 置 位 ， 函 数 扫描 指向 页 描述 符 的 area->pages 指针 数 


组 ;对 于 数组 的 每 一 个 元 素 ， 调 用 __free_page1l) 国 数 释 放 页 框 到 分 区 页 框 分 配 
器 。 此 外 ， 执 行 kfree (area->pages) 来 释放 数组 本 身 。 


3. 调用 kfreelarea) 来 释放 vm_struct 描述 符 。 
rermove_Vvm_areal) 国 数 执行 如 下 循环 ， 


write_lock(&gvmlist_lock}); 
tor {p = &ymlist ; {tmp = *p) 7; pp = &tmnp->next) 1 
if {tmp->addr == adaar) 1{ 
unmap_vm _ area (tmp}; 
*Dp = tmp->next; 
break; 
! 
} 
Write unlocki&gvmlist lock}; 
return tmp; 
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内 存 区 本 身 通过 调用 unmap_vm_area() 来 释放 。 这 个 函数 接收 单个 参数 , 即 指向 内 存 区 
的 vm_struct 摘 述 符 的 指针 area。 它 执行 下 列 循环 以 进行 map_vm_area{}) 的 反 向 操作 ; 


address = area->addr; 
end = address + drea->slZe; 
PI9d = pgd_offset_k(laddress):; 
for {i = pgd_ index (address)}; i <= pgd_index(end-1}; i++}) | 
next = (address + PGDIR SIZE) & POGDIR_MASEK; 
if next <= address || next > end) 
next = nm: 
unmap_area_ pudipgd, address, next - address}:; 
Address = next:; 
pgd++}; 


unmap_area_pud() 依 次 在 循环 中 执行 map_area_pud() 的 反 操 作 : 


do 
unmap_ area_pmdipud, address, end-address); 
address = (address + PUD _ SIZE) & PUD MASEK; 
+ 二 7 


} while laddress && laddress < end})}: 


unmap_area_pmdif) 国 数 在 循环 中 执行 map_area_pmd() 的 反 操 作 


do 【 
unmap_area_ptelpmd, address, end-address}.: 
address = lacdress + PMD STIZE} & PMD MASK.; 
Pmd++; 


} while laddress < endl: 


最 后 ，unmap_area_pte{) 在 循环 中 执行 map_area_pte() 的 反 操 作 : 


do 1{ 
bte_t page = ptLep_get_and clear Ipte);} 
address += PAGE SIE; 
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Dtet++t+; 
if (lpte_nonelpage) && pte present (page)) 
printk(i"Whee... Swapped out cage in kernel page table\n"): 
} while raddress < end); 


在 每 次 循环 过 程 中 ，ptep_get_anqd_clear 宏和 将 pte 指向 的 页 表 项 设 为 0， 


与 vmalloc() 一 样 , 内 核 修改 主 内 核 页 全 局 目录 和 它 的 子 页 表 中 的 相应 项 (参见 第 二 章 
“内 核 页 表 ” 一 市 ), 但 是 映射 第 4 个 GB 的 进程 页 表 的 项 保持 不 变 。 这 是 在 情理 之 中 的 ， 
因为 内 核 永远 也 不 会 收回 扎根 于 主 内 核 页 全 局 目录 中 的 页 上 级 目录 ,页 中 间 目 录 和 页 表 。 


例如 , 假定 内 核 态 的 进程 访问 一 个 随后 要 释放 的 非 连 续 内 存 区 。 进程 的 页 全 局 目录 项 等 
于 主 内 核 页 全 局 目录 中 的 相应 项 , 由 于 在 第 九 章 “ 缺 页 异常 处 理 程 序 ” 一 节 中 所 摘 述 的 
机 制 ， 这 些 目录 项 指向 相同 的 页 上 级 目录 、 页 中 间 目 录 和 页 表 。unmap_area_ptel() 国 
数 只 清除 页 表 中 的 项 (不 回收 页 表 本 身 )。 进 程 对 已 释放 非 连 续 内 存 区 的 进一步 访问 必 
将 由 于 空 的 页 表 项 而 触发 缺 页 异常 。 但 是 , 缺 页 处 理 程 序 会 认为 这 样 的 访问 是 一 个 错误 ， 
因为 主 内 核 页 表 不 包含 有 效 的 表 项 。 


第 九 章 


进程 地 址 空间 





在 前 一 章 我 们 已 经 看 到 , 内 核 中 的 函数 以 相当 直接 了 当 的 方式 获得 动态 内 存 , 这 是 通过 
调用 以 下 几 种 函数 中 的 天 个 达到 的 一 get _free_pages () 或 alloc_pages () 从 分 区 
页 框 分 配器 中 获得 页 框 Y kmem_cache_alloc() 或 kmalloc() 使 用 slab 分 配器 为 专用 或 
通用 对 象 分 配 块 B 而 valloc 0 或 vmalloc 331) 获 得 一 卖 非 连续 的 内 存 区 。 如 果 所 请 
求 的 内 存 区 得 以 满足 , 这 些 函 数 都 返回 一 个 页 描述 符 地 址 或 线性 地 址 ( 即 所 分 配 动态 内 
存 区 的 起 始 地 址 )。 


使 用 这 些 简单 方法 是 基于 以 下 两 个 原 估 : 

。 ”内核 是 操作 系统 中 优先 级 最 高 的 成 分 。 如 果 某 个 内 核 销 数 请 求 动态 内 存 , 那么 , 必 
定 有 正当 的 理由 发 出 那个 请 求 ， 因 此 , 没有 道理 试图 推迟 这 个 请 求 。 

。 ”内 核 信任 自己 。 所 有 的 内 核 最 数 都 被 假定 是 没有 错误 的 , 因此 内 核 国 数 不 必 插入 针 
对 编程 错误 的 任何 保护 措施 。 

当 给 用 户 态 进 程 分 配 内 存 时 ， 情 况 完全 不 同 : 


。 ”进程 对 动态 内 存 的 请 求 被 认为 是 不 紧迫 的 。 例 如， 当 进 程 的 可 执行 文件 被 装 入 时 ， 
进程 并 不 一 定 立即 对 所 有 的 代码 页 进行 访问 。 类 似 地 ， 当 进程 调用 malloc () 以 获 
得 请 求 的 动态 内 存 时 ， 也 并 不 意味 着 进程 很 快 就 会 访问 所 有 所 获得 的 内 存 。 因 此 ， 
一 般 来 说 ， 内 核 总 是 尽量 推迟 给 用 户 态 ; 

。 ”由 于 用 户 进 程 是 不 可 信任 的 , 因此 , 内核 必须 能 随 
有 寻 址 错误 。 
I 
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要 第 九 训 


本 章 我 们 会 看 到 , 内 核 使 用 一 种 新 的 资源 成 功 实 现 了 对 进程 动态 内 存 的 推迟 分 配 。 当 用 
户 态 进程 请 求 动态 内 存 时 , 并 没有 获得 请 求 的 页 框 , 而 仅仅 获得 对 一 个 新 的 线性 地 址 区 
间 的 使 用 权 , 而 这 一 线性 地 址 区 加 就 成 为 进程 地 址 空间 的 一 部 分 。 这 一 区 间 叫 做 “线性 
区 ”(memory region) (译注 1 )。 


在 下 一 下 ， 我 们 讨论 进程 是 怎样 看 符 动 态 内 存 的 。 然 后 ,在 “线性 区 ”一 节 中 摘 述 进程 
地 址 空间 的 基本 组 成 。 接 下 来 , 我 们 仔细 分 析 缺 页 异常 处 理 程序 在 推迟 给 进程 分 配 页 杠 
中 所 起 的 作用 。 然 后 ,我 们 阐述 内 核 怎 样 创 建 和 删除 进程 的 整个 地 址 空间 。 最 后 ， 我 们 
讨论 与 进程 的 地 址 空间 管理 有 关 的 API 和 系统 调用 。 


进程 的 地 址 空间 

二 的 好 考生 加 (5 由 克 和 过 得 信用 的 全 名 线性 地 起 用 记 。 每 个 进程 所 看 
到 的 线性 地 址 集合 是 不 同 的 , 一 个 进程 所 使 用 的 地 一 个 进程 所 使 用 E 
没有 仕 么 关系 后 面 我 们 会 看 到 , 内 核 可 以 通过 4 增加 或 刷 除 某 毕 线性 地 址 区 间 来 动态 地 
修改 进程 的 地 址 空间 。 






FP 
器 


FD dy A LT .= A 


内 核 通 过 所 谓 线性 区 的 资源 来 表示 线性 地 址 区 间 , 线性 区 是 由 起 始 线性 地 址 、 长 度 和 一 
些 访 问 权 限 来 描述 的 。 为 了 效率 起 见 ， 起 始 地 址 和 线性 区 的 长 度 都 必须 是 4096 的 倍数 ， 
以 便 每 个 线性 区 所 识别 的 数据 完全 填 满 分 配给 它 的 页 框 ,下 面 是 进程 获得 新 线性 区 的 一 
些 典 型 情况 : 


。 ” 当 用 户 在 控制 台 输 入 一 条 命令 时 ,shell 进 程 创建 一 个 新 的 进程 去 执行 这 个 命令 。 结 
果 是 , 一 个 全 新 的 地 址 空间 (也 就 是 一 组 线性 区 ) 分 配给 了 新 进程 《参见 本 章 后 面 
的 “创建 和 删除 进程 的 地 址 空间 ”一 节 和 第 二 十 章 )。 


。 ”正在 运行 的 进程 有 可 能 决定 装 入 一 个 完全 不 同 的 程序 ,在 这 种 情况 下 , 进程 标识 符 
仍然 保持 不 变 , 可 是 在 装 入 这 个 程序 以 前 所 使 用 的 线性 区 却 被 释放 ,并 有 一 组 新 的 
线性 区 被 分 配给 这 个 进程 《参见 第 二 十 章 中 的 “exec 函数 ”一 节 )。 


。 “正在 运行 的 进程 可 能 对 一 个 文件 《或 它 的 一 部 分 ) 执行 “内 存 映射 "。 在 这 种 情况 
下 , 内 核 给 这 个 进程 分 配 一 个 新 的 线性 区 来 映射 这 个 文件 (参见 第 十 六 章 中 的 “内 
存 映 射 ”一 市 )。 


。 ”进程 可 能 持续 向 它 的 用 户 态 堆 栈 增加 数据 , 直到 映射 这 个 堆栈 的 线性 区 用 完 为 止 。 

译注 1: “memory region” 字 面 念 义 为 内 存 区 ， 但 实际 含义 为 线性 地 址 空间 中 的 一 个 区 字段 ， 在 
此 把 它 译 为 线性 区 更 贴切 一 些 。 其 实际 含义 就 是 通常 所 指 的 虚拟 内 存 中 的 一 个 区 间 ， 可 
以 称 为 “ 虚 存 区 ”(Virtual Memory Area，VMA ) 。 
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在 这 种 情况 下 , 内 核 也 许 会 决定 扩展 这 个 线性 区 的 大 小 (参见 本 章 后 面 的 “ 缺 页 异 
常 处 理 程序 ”一 市 )。 

。 ”进程 可 能 创建 一 个 IPC 共 享 线性 区 来 与 其 他 合作 进程 共享 数据 。 在 这 种 情况 下 , 内 
核 给 这 个 进程 分 配 一 个 新 的 线性 区 以 实现 这 个 方案 (参见 第 十 九 童 中 的 “IPC 共享 
内 存 ” 一 市 )。 

。 ”进程 可 能 通过 调用 类 似 malloc() 这 样 的 函数 扩展 自己 的 动态 区 ( 堆 )。 结果 是 ,内 
核 可 能 决定 扩展 给 这 个 堆 所 分 配 的 线性 区 (参见 本 章 后 面 的 “ 堆 的 管理 ”一 节 )。 

表 9-1 显示 了 与 前 面 提 到 的 任务 相关 的 一 些 系统 调用 。 除 brk () 在 本 章 的 最 后 进行 讨论 

外 ， 其 余 的 系统 调用 在 其 他 章 市 阐述 。 


表 9-1; 与 创建 、 有 删除 线性 区 相关 的 系统 调用 


系统 调用 说 明 

brk ( ) 改变 进程 堆 的 大 小 

execve () 装 入 一 个 新 的 可 执行 文件 ， 从 而 改变 进程 的 地 址 空间 
_exit () 结束 当前 进程 并 撤销 它 的 地 址 空间 

fork () 创建 一 个 新 进程 ， 并 为 它 创建 新 的 地 址 空间 
mmap () ，mmap2 () 为 文件 创建 一 个 内 存 上 映射， 从 而 扩大 进程 的 地 址 空间 
mremap () 扩大 或 缩小 线性 区 

remap_file pages {) 为 文件 创建 非 线 性 上 映射 (参见 第 十 六 章 ) 

munmap () 撤销 对 文件 的 内 存 上 映射 ， 从 而 缩小 进程 的 地 址 空间 
shmat () 创建 一 个 共享 线性 区 

shmat ( ) 撤消 一 个 共享 线性 区 


~ 


我 们 会 在 “ 缺 页 异常 处 理 程序 ”一 市 中 看 到 ,确定 一 个 进程 当前 所 拥有 的 线性 区 ( 即 进 
程 的 地 址 空间 ) 是 内 核 的 基本 任务 ,因为 这 可 以 让 缺 页 异常 处 理 程序 有 效 地 区 分 引发 这 
个 异常 处 理 程序 的 两 种 不 同类 型 的 无 效 线性 地 址 : 


。 ”由 编程 错误 引发 的 无 效 线性 地 址 。 
。 “由 缺 页 引发 的 无 效 线性 地 址 :即使 这 个 线性 地 址 属于 进程 的 地 址 空间 , 但 是 对 应 于 
这 个 地 址 的 页 框 仍然 有 待 分 配 。 


从 进程 的 观点 来 看 , 后 一 种 地 址 不 是 无 效 的 ， 内核 要 利用 这 种 缺 页 以 实现 请 求 调 页 : 内 
核 通过 提供 页 框 来 处 理 这 种 缺 页 ， 并 让 进程 继续 执行 。 
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内 存 摘 述 符 


与 进程 地 址 空间 有 关 的 全 部 信息 都 包含 在 一 个 叫做 内 存 描述 符 (memory descriptor) 的 
数据 结构 中 (译注 2), 这 个 结构 的 类 型 为 mm_struct, 进 程 描述 符 的 mm 字段 就 指向 这 个 
结构 。 内 存 描述 符 的 字段 如 表 9-2 所 示 : 


表 9-2: 内 存 描述 符 中 的 字段 


类 型 


struct 
Vn area_ struct * 


struct rb_root 


Struct 


VNn area _ struct * 


unsigneqd long (*){() 


voiqd {*)() 


unsigned long 


unsigned long 


PgaQ tt * 

atomic_t 
atomic_t 

Lit 

struct rw_semaphore 
spinlock.t 
struct list_head 
unsigned long 
unsigned long 
unsigned long 
unsigned long 


unsigned long 


译注 2: 


字段 


mmap 


mm_ rb 


mmap. cache 
get_unmapped area 


unmap_area 


mmap_base 


free area cache 


pgd 

mm _users 
i 
map_count 
mmap_sem 
page_table lock 
mmlist 
start_cCode 
end_code 
start_data 
end _ data 


start_brk 


实际 上 莽 是 描述 进程 虚拟 内 存 的 数据 结构 。 


说 明 
指向 线性 区 对 象 的 链表 藉 


指向 线性 区 对 象 的 红 一 黑 树 的 根 
指向 最 后 一 个 引用 的 线性 区 对 象 


在 进程 地 址 空间 中 搜索 有 效 线性 地 址 区 
间 的 方法 
释放 线性 地 址 区 间 时 调用 的 方法 


标识 第 一 个 分 配 的 匿名 线性 区 或 文件 内 
存 映射 的 线性 地 址 (参见 第 二 十 章 “ 程 
序 段 和 进程 的 线性 区 ”一 节 ) 

内 核 从 这 个 地 址 开始 搜索 进程 地 址 空间 
中 线性 地 址 的 空闲 区 间 
指向 页 全 局 目录 

次 使 用 计数 器 

主 使 用 计数 器 

线性 区 的 个 数 

线性 区 的 读 / 写 信号 量 

线性 区 的 自 旋 锁 和 页 表 的 自 旋 锁 

指向 内 存 描述 符 链 表 中 的 相 邻 元 素 

可 执行 代码 的 起 始 地 址 

可 执行 代码 的 最 后 地 址 

已 初始 化 数据 的 起 始 地 址 

已 初始 化 数据 的 最 后 地 址 

堆 的 起 始 地 址 
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表 9-2: 内 存 描述 符 中 的 字段 ( 续 ) 


类 型 


unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 


unsigned 


unsigned 
unsigned 
unsigned 


unsigned 


unsigned 
unsigned 


unsigned 


unsigned 


cpumask_t 


long 
long 
long 
long 
long 
long 
long 
long 
long 


long 


long 
long 
long 
long 


long 
long 


long 


int 


mm_ context_t 


unsigned 


char 


int 


struct completion * 


long 





字段 

brk 
start_stack 
arg. start 
arg_end 
env_start 
env_end 

rss 
anon_rss 
total_vm 


locked_vm 


shared_vm 
eXecC_Vm 
stack_vnm 


reserved_wvnm 


def_flags 
nr_ptes 


Saved auxv 


dumpable 


Cpu_vm mask 


context 


Swap_ token time 


recent_pagein 


Core waiters 


core_startup_done 


335 


说 明 

堆 的 当前 最 后 地 址 

用 户 态 堆栈 的 起 始 地址 
命令 行 参数 的 起 始 地 址 

命令 行 参 数 的 最 后 地 址 
环境 变量 的 起 始 地 址 
环境 变量 的 最 后 地 址 

分 配给 进程 的 页 框 数 

分 配给 匿名 内 存 映 射 的 页 框 数 
进程 地 址 空间 的 大 小 (页 数 ) 
“ 锁 住 ”而 不 能 换 出 的 页 的 个 数 (参见 第 
人 

共享 文件 内 存 映射 中 的 页 数 
可 执行 内 存 映 射 中 的 页 数 

用 户 态 堆栈 中 的 页 数 


在 保留 区 中 的 页 数 或 在 特殊 线性 区 中 的 
页 数 


线性 区 默认 的 访问 标志 

this 进程 的 页 表 数 

开始 执行 ELF 程序 时 使 用 (参见 第 二 十 
章 ) 

表示 是 否 可 以 产生 内 存 信 息 转 储 的 标志 
用 于 懒惰 TLB 交换 的 位 掩 码 (参见 第 二 
章 ) 

指向 有 关 特 定 体系 结构 信息 的 表 (例如 ， 
在 80x86 平 台 上 的 LDT 地 址 ) 

进程 在 这 个 时 间 将 有 资格 获得 交换 标记 
(参见 第 十 七 章 “ 交 换 标 记 ” 一 节 ) 

如 果 最 近 发 生 了 主 缺 页 ， 则 设置 该 标志 
正在 把 进程 地 址 空间 的 内 容 印 载 到 转 储 
文件 中 的 轻 量 级 进程 的 数量 〈 参 见 本 章 
后 面 “删除 进程 的 地 址 空间 ”一 节 ) 
指向 创建 内 存 转 储 文件 时 的 补充 原 语 
(参见 第 五 章 “ 补 充 原 语 ” 一 节 ) 
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表 9-2: 内 存 描述 符 中 的 字段 ( 续 ) 


类 型 字段 说 明 

struct completion core_done 创建 内 存 转 储 文件 时 使 用 的 补充 原 语 

rwlock_t igetx list Loek 用 于 保护 异步 /O 上 下 文 链表 的 锁 ( 参 
见 第 十 六 章 ) 

Struct kiostx * ell eb Bh Bile 异步 IO 上 下 文 链表 (参见 第 十 六 章 ) 

street GE default_kioctx 默认 的 异步 [LO 上 下 文 (参见 第 十 六 章 ) 

unsigned long hiwater_rss 进程 所 拥有 的 最 大 页 框 数 

unsigned long hiwater_vm 进程 线性 区 中 的 最 大 页 数 





所 有 的 内 存 描述 符 存放 在 一 个 双 问 链表 中 。 每 个 描述 符 在 mmlist 字段 存放 链表 相 邻 元 
素 的 地 址 。 链 表 的 第 一 个 元 素 是 init_mm 的 mmlist 字段 ，init_mm 是 初始 化 阶段 进程 
0 所 使 用 的 内 存 描述 符 。mmlist_lock 自 旋 锁 保护 多 处 理 器 系统 对 链表 的 同时 访问 。 


mm_users 字段 存放 共享 mm_struct 数据 结构 的 轻 量 级 进程 的 个 数 (参见 第 三 章 
“clone()、fork() 及 vfork() 系 统 调 用 ”一 节 )。mm_count 字段 是 内 存 描述 符 的 主 使 
用 计数 器 , 在 mm_users 次 使 用 计数 器 中 的 所 有 用 户 在 mm_count 中 只 作为 一 个 单位 。 每 
当 mm_count 递减 时 ， 内 核 都 要 检查 它 是否 变 为 0， 如 果 是 ,就 要 解除 这 个 内 存 描述 符 ， 
因为 不 再 有 用 户 使 用 它 。 


我 们 用 一 个 例子 来 解释 mm_users 和 mm_count 之 间 的 不 同 。 考虑 一 个 内 存 撕 述 符 由 两 个 
轻 量 级 进程 共享 。 它 的 mm_users 字 段 通 常 存放 的 值 为 2， 而 mm_count 字段 存放 的 值 为 
1 (两 个 所 有 者 进程 算 作 一 个 )。 


如 果 把 内 存 描述 符 暂 时 借 给 一 个 内 核 线程 (参见 下 一 节 ) 那么 , 内 核 就 增加 mm_count。 
这 样 , 即使 两 个 轻 量 级 进程 都 死亡 , 且 mm_users 字 段 变 为 0, 这 个 内 存 描述 符 也 不 被 释 
放 ， 直 到 内 核 线程 使 用 完 为 止 ， 因 为 mm_count 字段 仍然 大 于 0。 


如 果 内 核 想 确保 内 存 描述 符 在 一 个 长 操作 的 中 间 不 被 释放 ,那么 ,就 应 该 增加 mm_users 字 
段 而 不 是 mrm_count 字段 的 值 (这 正 是 国 数 try_co_unuse() 所 做 的 事 ， 参 见 第 十 七 章 “ 激 
活 和 禁用 交换 区 ”一 节 )。 最 终 的 结果 是 相同 的 ， 因 为 mm_users 的 增加 确保 了 mm_count 
不 变 为 0， 即 使 拥有 这 个 内 存 描 述 符 的 所 有 轻 量 级 进程 全 部 死亡 。 


mrm_alloc() 困 数 用 来 获得 一 个 新 的 内 存 描述 符 。 由 于 这 些 找 述 符 被 保存 在 slab 分 配器 高 
速 缓 存 中 ， 因 此 ，mm_alloc() 调 用 kmem_cache_alloc() 来 初始 化 新 的 内 存 描 述 符 ， 并 
把 mm_count 和 mm_users 字段 都 置 为 1。 
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相反 ，mmput () 范 数 递 减 内 存 描述 符 的 mm_users 字 7 段 。 如 果 该 字段 变 为 0, 这 个 函数 就 
释放 局 部 描述 符 表 、 线 性 区 描述 符 (参见 本 章 后 面 的 部 分 ) 及 由 内 存 描 述 符 所 引用 的 页 
表 ， 并 调用 mmarop () 。 后 一 个 国 数 把 rm_count 字段 减 1， 如 果 该 字段 变 为 0， 就 释放 
mm_struct 数据 结构 。 


mmap、mm_rb、mmlist 和 mmap_cache 字段 将 在 下 一 节 进 行 讨 论 。 


内 核 线程 的 内 存 描述 符 


内 核 线程 仅 运行 在 内 核 态 , 因此 , 它们 永远 不 会 访问 低 于 TASK_SIZE( 等 于 PAG 白 OFFSET， 
通常 为 0xc0000000) 的 地 址 。 与 普通 进程 相反 ， 内 核 线程 不 用 线性 区 ， 因 此 ， 内 存 描述 
符 的 很 多 字段 对 内 核 线 程 是 没有 意义 的 。 


因为 大 于 TASK_SIZE 线 性 地 址 的 相应 页 表 项 都 应 该 总 是 相同 的 , 因此 , 一 个 内 核 线程 
到 底 使 用 什么 样 的 页 表 集 根本 就 没有 什么 关系 。 为 了 避免 无 用 的 TLB 和 高 速 缓存 刷新 ， 
内 核 线程 使 用 一 组 最 近 运 行 的 普通 进程 的 页 表 。 结果 , 在 每 个 进程 描述 符 中 包含 了 两 种 
内 存 描述 符 指 针 : mm 和 active_rmm。 


进程 描述 符 中 的 mm 字段 指向 进程 所 拥有 的 内 存 描述 符 , 而 active_mm 字 段 指 向 进程 运 
行 时 所 使 用 的 内 存 描述 符 。 对 于 普通 进程 而 言 ， 这 两 个 字段 存放 相同 的 指针 。 但是， 内 
核 线程 不 拥有 任何 内 存 描 述 符 , 因此 , 它们 的 mm 字段 总 是 为 NULL。 当 内 核 线 程 得 以 运 
行 时 ， 它 的 active_mm 字 段 被 初始 化 为 前 一 个 运行 进程 的 active_mm 值 (参看 第 七 章 
“schedule(O 畏 数 ” 一 节 )。 


然而 , 事情 有 点 复杂 。 只 要 处 于 内 核 态 的 一 个 进程 为 高端 ”线性 地 址 (高 于 TASK_SIZE) 
修改 了 页 表 项 , 那么 , 它 就 也 应 当 更 新 系统 中 所 有 进程 页 表 和 集合 中 的 相应 表 项 ,事实 上 ， 
一 旦 内 核 态 的 一 个 进程 进行 了 设置 ， 那 么 ， 映 射 应 该 对 内 核 态 的 其 他 所 有 进程 都 有 效 。 
触及 所 有 进程 的 页 表 集 合 是 相当 费时 的 操作 ， 因 此 ，Linux 采用 一 种 延迟 方式 。 


我 们 在 第 八 章 “ 非 连续 内 存 区 管理 ”一 节 已 经 提 到 这 种 延迟 方式 : 每 当 一 个 高 端 地 址 必须 
被 重新 映射 时 (一般 是 通过 vmalloc() 或 vfree()), 内核 就 更 新 根 目录 在 swapper_pg_dir 
主 内 核 页 全 局 目录 (参见 第 二 章 “ 内 核 页 表 ” 一 节 ) 中 的 常规 页 表 集 合 。 这 个 页 全 局 目录 
由 主 内 存 描述 符 (master memory descriptor) 的 pga 字 段 所 指向 ， 而 主 内 存 描述 符 存放 于 
init_mm 变量 ( 注 1)。 


汪 我 们 在 第 三 章 “ 内 核 线程 ”一 节 中 提 到 ，swapper 内 核 线程 在 初始 化 阶段 使 用 init_mm。 
但 是 ， 一 旦 初始 化 完成 ，swapper 再 不 使 用 这 个 内 存 描 述 符 。 
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在 随后 的 “处 理 非 连续 内 存 区 访问 ”一 节 ，, 我 们 将 描述 缺 页 处 理 程序 如 何在 非常 必要 时 
维护 存放 在 常规 页 表 中 的 扩展 信息 。 


线性 区 


Linux 通过 类 型 为 vm_area_struct 的 对 象 实现 线性 区 ， 它 的 字段 如 表 9-3 所 示 ( 注 2)。 


表 9-3: 线性 区 对 象 的 字段 


类 型 


Struct mm struct * 


unsigned long 
unsigned' long 


Struct 


vn area struct * 


pgprot_t 
unsigned long 
struct rb node 


union 


struct list_ head 


struct anon vma * 


Struct 


vm operations_struct * 


unsigned long 


struct file * 
VOid * 


unsigned long 


字段 


VIN_IMM 


vm_start 
vm_end 


Vvm_next 
vm page_ prot 
vm_flags 


vm_rb 


shared 


anon_vma_node 


IIOnm_VIma 


VvIM_ops 


vm_pgofft 


vm file 


vm private data 


vIn truncate count 


说 明 

指向 线性 区 所 在 的 内 存 描述 符 
线性 区 内 的 第 一 个 线性 地 址 
线性 区 之 后 的 第 一 个 线性 地 址 
进程 链表 中 的 下 一 个 线性 区 


线性 区 中 页 框 的 访问 许可 权 
线性 区 的 标志 
用 于 红 一 黑 树 的 数据 (参见 本 章 后 面 ) 


链接 到 反映 射 所 使 用 的 数据 结构 (参见 
第 十 七 章 “ 对 映射 页 的 反映 射 ” 一 节 ) 
指向 匿名 线性 区 链表 的 指针 (参见 第 
十 七 章 “映射 页 的 反 向 映射 ”一 节 ) 
指向 anon_vma 数 据 结构 的 指针 (参见 
第 十 七 章 “ 映 射 页 的 反 向 映射 ”一 节 ) 
指向 线性 区 的 方法 


在 映射 文件 中 的 偏 移 量 (参见 第 十 六 
章 )。 对 匿名 页 ， 它 等 于 0 或 vm_ 
start/PAGE_SIZE (参见 第 十 七 章 ) 
指向 映射 文件 的 文件 对 象 (如 果 有 的 话 ) 
指向 内 存 区 的 私有 数据 


释放 非 线 性 文件 内 存 映射 中 的 一 个 线 
性 地 址 区 间 时 使 用 


注 2.: 我 们 对 NUMA 系统 中 使 用 的 一 些 附 加 字段 不 于 说 明 。 
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每 个 线性 区 描述 符 表 示 一 个 线性 地 址 区 则 。wm_start 字 段 包含 区 则 的 第 一 个 线性 地 址 ， 而 
vm_end 字段 包含 区 上 则 之 外 的 第 一 个 线性 地 址 。vm_ena 一 vm_start 表示 线性 区 的 长 度 。 
vm_mm 字段 指向 拥有 这 个 区 间 的 进程 的 mm_st ruct 内 存 描 述 符 。 我 们 稍 后 将 描述 
vInN area strnuct 的 其 他 字 =- 


进程 所 拥有 的 线性 区 从 来 不 重合, 并 且 内 核 尽 力 把 新 分 配 的 线性 区 与 紧邻 的 现 有 线性 区 
进行 合并 。 如 果 两 个 相 令 区 的 访问 权限 相 匹 瑟 ， 就 能 把 它们 合并 在 一 起 。 


如 图 9-1 所 示 ， 当 一 个 新 的 线性 地 址 区 则 加 入 到 进程 的 地 址 空间 时 , 内核 检查 一 个 已 经 存 
在 的 线性 区 在 否 可 以 扩大 (情况 ai)。 如 有 条 不 能 ， 就 创建 一 个 新 的 线性 区 《情况 bj。 类 似 
地 ， 如 上 果 从 进程 的 地 址 至 间 删 除 一 个 线性 地 址 区 间 ， 内 核 就 要 调整 受 影响 的 线性 区 大 小 
(情况 c)。 有 些 情况 下 , 调整 大 小 迫使 一 个 线性 区 被 分 成 两 个 更 小 的 部 分 (情况 d) ( 注 3)。 








ER 
an (a) 现 有 区 域 被 扩大 
相 邻 区 域 的 权限 访问 
ee 

rg ee (b') 新 的 区 域 被 创建 一 

相 邻 区 域 的 权限 应 间 
(0 要 删除 的 区 间 在 现 有 区 域 的 未 尾 (ce) 现 有 区 域 被 缩小 
(d) 要 删除 的 区 间 在 现 有 区 域 的 中 间 (4) 两 个 较 小 的 区 域 被 创建 。 

3 到 

操作 之 前 的 地 址 空间 操作 之 后 的 地 址 空间 








9-1: 增加 或 顺 除 一 个 线性 地 址 区 间 


注 3 : 从 理论 上 说 ,删除 一 个 线性 地 址 区 间 可 能 会 失败 ， 因 为 没有 空闲 的 内 存 给 新 的 门 存 描述 
符 使 用 。 
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vm_ops 字 段 指 同 vm_ocoperations_struct 和 数据 结构 , 该 结构 中 存放 的 是 线性 区 的 方法 。 
只 有 如 表 9-4 所 示 的 4 种 方法 可 应 用 于 UMA 系统 。 


表 9-4: 作用 于 线性 区 的 方法 


方法 说 明 

open 当 把 线性 区 增加 到 进程 所 拥有 的 线性 区 集合 时 调用 

ET 当 从 进程 所 拥有 的 线性 区 集合 量 除 线性 区 时 调用 

nopage 当 进 程 试图 访问 RAM 中 不 存在 的 一 个 页 ， 但 该 页 的 线性 地 址 属于 线性 区 


时 ， 由 人 缺 页 异常 处 理 程序 调用 (参见 后 面 “ 缺 页 蜡 常 处 理 程 序 ” 一 节 ) 
populate ”设置 线性 区 的 线性 地 址 ( 预 缺 页 ) 所 对 应 的 页 表 项 时 调用 。 主 要 用 于 非 线 
性 文件 内 存 映射 


线性 区 数据 结构 

进程 所 拥有 的 所 有 线性 区 是 通过 一 个 简单 的 链表 链接 在 一 起 的 ,出 现在 链表 中 的 线性 区 
是 按 内 存 地 址 的 升序 排列 的 ; 不 过 , 每 两 个 线性 区 可 以 由 未 用 的 内 存 地 址 区 隔 开 。 每 个 
vm_area_struct 元素 的 vm_next 字 段 指 向 链表 的 下 一 个 元 素 。 内 核 遂 过 进程 的 内 存 描 
述 符 的 mmap 字 段 来 查找 线性 区 ， 其 中 nmap 字段 指向 链表 中 的 第 一 个 线性 区 摘 述 符 。 


内 存 描 述 符 的 map_count 字段 存 放 进 程 所 拥有 的 线性 区 数目 。 默认 情 帝 下 , 一 个 进程 可 
以 最 多 拥有 65536 个 不 同 的 线性 区 ， 系 统管 理 员 可 以 通过 写 /proc/sys/vm/max_map. 
count 文件 来 修改 这 个 限定 值 。 


图 9-2 显示 了 进程 的 地 址 空间 、 它 的 内 存 描述 符 以 及 线性 区 链表 三 者 之 间 的 关系 。 


线性 地 址 空间 





一 一 vm start 
—— -bb vm end 
sa » vm Next 


mmap mmap_cache 


内 存 摘 述 符 








9-2: 与 进程 地 址 空间 相关 的 描述 符 
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内 核 频 每 执行 的 一 个 操作 就 是 查找 包含 指定 线性 地 址 的 线性 区 ,由 于 链表 是 经 过 排序 的 ， 
因此 ， 只 楼 在 指定 线性 地 址 之 后 找到 一 个 线性 区 ， 搜 索 束 可 以 结束 。 


然而 , 仅 当 进程 的 线性 区 非常 少时 使 用 这 种 链表 才 是 很 方便 的 , 比如 说 只 有 一 二 十 个 线 
性 区 。 在 链表 中 查找 元 么 、 播 人 元 素 、 删 除 元 这 涉及 许多 操作 ,这些 操作 所 花费 的 时 间 
与 链表 的 长 度 成 线性 比例 。 


尽管 多 数 的 Linux 进 程 使 用 的 线性 区 非常 少 , 但 是 诸如 面向 对 象 的 数据 库 , 或 malloc () 
的 专用 调试 絮 那 样 过 于 庞大 的 大 型 应 用 程序 可 能 会 有 成 百 上 二 的 线性 区 ,在 这 种 情况 下 ， 
线性 区 链表 的 管理 变 得 非 单 低 效 , 因此 , 与 内 存 相 关 的 系统 调用 的 性 能 就 降低 到 令 人 无 


因此 , Linux 2.6 把 内 存 描 述 符 存放 在 叫做 红 一 黑 树 (red-black tree) 的 数据 结构 中 。 
在 红 一 黑 树 中 ， 每 个 元 素 (或 市 点 ) 通 第 有 两 个 孩子 : 左 倍 子 和 右 控 子 。 树 中 的 元 素 被 
排序 。 对 每 个 节点 N,N 的 左 子 树 上 的 所 有 元 素 都 排 在 NN 之 前 ， 相 反 ,，N 的 右 子 树 上 的 
所 有 元 素 都 排 在 NN 之 后 [如 图 9-3 (a) 所 示 ]; 节点 的 关键 字 被 写 人 节点 内 部 。 此 外 , 红 
一 起 树 必 须 注 足下 列 4 条 规则 : 


1. 每 个 方 点 必须 或 为 黑 或 为 红 。 


2， 树 的 根 必 须 为 黑 。 

3， 红 市 点 的 孩子 必须 为 兴 。 

4.， 从 一 个 节 扣 到 后 代 叶 子 市 点 的 每 个 路 径 都 包含 相同 数量 的 所 贡 点 。 当 统计 凑 节 点 个 
数 时 9 空 指针 也 算 从 里 证 Fs | 











9-3; 红 一 黑 树 实例 


元 
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这 4 条 规则 确保 具有 nn 个 内 部 市 点 的 任何 红 一 黑 树 其 高 度 最 多 为 2 x log (n+1)。 


在 红 一 黑 树 中 搜索 一 个 元 素 因 此 而 变 得 非常 高 效 ,因为 其 操作 的 执行 时 间 与 树 大 小 的 对 
数 成 线性 比例 。 换 名 话说， 双 倍 的 线性 区 个 数 只 多 增加 一 次 循环 。 


在 红 一 黑 树 中 插入 和 删除 一 个 元 素 也 是 高 效 的 ,因为 算法 能 很 快 地 遍历 树 以 确定 插入 元 
素 的 位 置 或 删除 元 素 的 位 置 。 任何 新 节点 必须 作为 一 个 叶子 插入 并 着 成 红色 。 如 果 操 作 
违背 了 了 上述 规 则 ， 就 必须 移动 或 重新 着 色 树 的 几 个 市 点 。 


例如 ,假如 值 为 4 的 一 个 元 素 必 须 插入 到 图 9-3 (a) 所 示 的 红 一 黑 树 中 。 它 的 正确 位 置 
是 关键 值 为 3 的 节点 的 右 骇 子 , 但 是 , 一 旦 把 它 插入 , 值 为 3 的 红 节 点 就 具有 红 孩 子 , 因 
此 而 违背 了 规则 3。 为 了 满足 这 条 规则 ， 值 为 3、4、7 的 节点 颜色 就 得 改变 。 但 是 ， 这 
种 操作 又 会 违背 规则 4,， 因 此， 算 法 在 以 关键 值 为 19 的 节点 为 根 节 点 的 子 树 上 执行 “ 旋 
转 ” 操 作 ， 产 生 如 图 9-3 \b) 所 示 的 新 红 一 黑 树 。 这 看 起 来 较 复杂 ,但 是 ,在 红 一 黑 树 
上 插入 或 删除 一 个 元 素 只 需要 少量 的 操作 一 一 这 个 数 与 树 大 小 的 对 数 成 线性 比例 。 


因此 ， 为 了 存放 进程 的 线性 区 ，Linux 既 使 用 了 链表 ， 也 使 用 了 红 一 黑 树 。 这 两 种 数据 
结构 包含 指 癌 同一 线性 区 描述 符 的 指针 , 当 插 入 或 删除 一 个 线性 区 描述 符 时 , 内 核 通过 
红 一 黑 树 搜索 前 后 元 素 ， 并 用 搜索 结果 快速 更 新 链表 而 不 用 扫描 链表 。 


链表 的 头 由 内 存 描述 符 的 mmap 字段 所 指向 。 任 何 线 性 区 对 象 都 在 vm_next 字段 存放 指 
问 链 表 下 一 个 元 素 的 指针 。 红 一 黑 树 的 首部 由 内 存 描述 符 的 mm_rb 字 段 所 指向 。 任何 线 
性 区 对 象 都 在 类 型 为 rb_node 的 vm_rb 字 段 中 存放 节点 颜色 以 及 指向 双亲 、 左 孩子 和 布 
孩子 的 指针 。 


一 般 来 说 , 红 一 黑 树 用 来 确定 含有 指定 地 址 的 线性 区 , 而 链表 通常 在 扫描 整个 线性 区 集 
合 时 来 使 用 。 


线性 区 访问 权限 

在 讲述 下 一 部 分 以 前 , 我 们 先 阐明 页 与 线性 区 之 间 的 关系 。 正 如 第 二 章 中 所 提 到 的 , 我 
们 使 用 “页 ”这 个 术语 既 表 示 一 组 线性 地 址 又 表示 这 组 地 址 中 所 存放 的 数据 。 尤 其 是 ， 
我 们 把 介 于 0~4095 之 间 的 线性 地 址 区 间 称 为 第 0 页 , 介 于 4096 ~8191 之 间 的 线性 地 址 
区 间 称 为 第 ] 页 ， 依 此 类 推 。 因 此 每 个 线性 区 都 由 一 组 号 码 连续 的 页 所 构成 。 


在 前 几 章 我 们 已 经 讨论 了 与 页 相关 的 两 种 标志 : 


。 在 每 个 页 表 项 中 存放 的 几 个 标志 , 如: Read/Write、Present 或 User/Supervisor 
(参见 第 二 章 中 的 “常规 分 页 ”一 节 )。 
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。 ”存放 在 每 个 页 描述 符 flags 字段 中 的 一 组 标志 (参见 第 八 童 中 的 “页 框 管 理 ” 一 


ys 


第 一 种 标志 由 80x86 硬 件 用 来 检查 能 否 执 行 所 请 求 的 寻 址 类 型 ， 第 二 种 标志 由 Linux 用 
于 许多 不 同 的 目的 ( 见 表 8-2)。 


现在 介绍 第 三 种 标志 ， 


即 与 线性 区 的 页 相关 的 那些 标志 。 它 们 存放 在 vm_area_struct 


描述 符 的 vm_flags 字段 中 ( 见 表 9-5)。 一些 标志 给 内 核 提 供 有 关 这 个 线性 区 全 部 页 的 
信息 , 例如 它们 包含 有 什么 内 容 ， 进程 访问 每 个 页 的 权限 是 什么 。 另 外 的 标志 描述 线性 
区 自身 ， 例 如 它 应 该 如 何 增长 。 


表 9-5: 线性 区 标志 


标志 名 

VM_READ 
VM_WRITE 

VM EXEG 
VM_SHARED 
VM_MAYREAD 
VM_MAYWRITE 
VM_MAYEXEC 

VM _MAYSHARE 
VM_GROWSDOWN 
VM_GROWSUP 

VM SHYM 
VM_DENYWRITE 
VM_EXECUTABLE 
VM LOCKED 
VM_IO 
VM_SEQ_READ 
VM_RAND_READ 
VM_DONTCOPY 
VM _ DONTEXPAND 


VM_RESERVED 


VM_ACCOUNT 


说 明 

页 是 可 读 的 

页 是 可 写 的 

页 是 可 执行 的 

页 可 以 由 几 个 进程 共享 

可 以 设置 VM_READ 标志 

可 以 设置 VM_WRITE 标志 

可 以 设置 VM_EXEC 标志 

可 以 设置 VM_SHARE 标志 

线性 区 可 以 向 低地 址 扩展 

线性 区 可 以 向 高 地 址 扩展 
线性 区 用 于 IPC 的 共享 内 存 

线性 区 映射 一 个 不 能 打开 用 于 写 的 文件 
线性 区 映射 一 个 可 执行 文件 
线性 区 中 的 页 被 锁 住 ， 且 不 能 换 出 
线性 区 映射 设备 的 MO 地 址 空间 

应 用 程序 顺序 地 访问 页 

应 用 程序 以 真正 的 随机 顺序 访问 页 

当 创 建 一 个 新 进程 时 不 拷贝 线性 区 

通过 mremap () 系 统 调用 禁止 线性 区 扩展 
线性 区 是 特殊 的 (如 ; 它 映 射 某 个 设备 的 MO 地 址 空间 ) ， 因 此 它 的 
页 不 能 被 交换 出 去 
创建 IPC 共享 线性 区 时 检查 是 否 有 足够 的 空间 内 存 用 于 映射 (参见 
第 十 九 章 ) 
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表 9-5: 线性 区 标志 ( 续 ) 


标志 说 明 
VM_HUGETLB 通过 扩展 分 页 机 制 处 理 线性 区 中 的 页 (参见 第 二 章 “ 扩 展 分 页 ”一 
市 ) 


VM_NONLINEAR 线性 区 实现 非 线 性 文件 映射 





线性 区 描述 符 所 包含 的 页 访问 权限 可 以 任意 组 合 。 例 如， 存在 这 样 一 种 可 能 性 ,允许 一 
个 线性 区 中 的 页 可 以 执行 但 是 不 可 以 读 取 。 为 了 有 效 地 实现 这 种 保护 方案 , 与 线性 区 的 
页 相关 的 访问 权限 ( 读 、 写 及 执行 ) 必须 被 复制 到 相应 的 所 有 表 项 中 ,以便 由 分 页 单元 
直接 执行 检查 。 换 句 话 说 , 页 访问 权限 表示 何 种 类 型 的 访问 应 该 产生 一 个 缺 页 异常 。 稍 
后 我 们 会 看 到 ，Linux 委派 缺 页 处 理 程 序 查找 导致 缺 页 的 原因 ， 因 为 缺 页 处 理 程序 实现 
了 许多 页 处 理 策 略 。 


页 表 标 志 的 初 值 (正如 我 们 看 到 的 ， 同 一 线性 区 所 有 页 标志 的 初 值 必 须 一 样 ) 存放 在 
vm_area_struct 描述 符 的 vm_page_prot 字段 中 。 当 增加 一 个 页 上 时， 内核 根 据 
vm_page_prot 字段 的 值 设置 相应 页 表 项 中 的 标志 。 


然而 ， 并 不 能 把 线性 区 的 访问 权限 直接 转换 成 页 保护 位 ， 这 是 因为 : 


。 ”在 某 些 情况 下 , 即使 由 相应 线性 区 描述 符 的 vm_flags 字 段 所 指定 的 某 个 页 的 访问 
权限 允许 对 该 页 进行 访问 ,但 是 , 对 该 页 的 访问 还 是 应 当 产 生 一 个 缺 页 异常 。 例 如 ， 
我 们 在 本 章 后 面 的 “ 写 时 复制 ”一 节 会 看 到 , 内 核 可 能 决定 把 属于 两 个 不 同 进程 的 
两 个 完全 一 样 的 可 写 私 有 页 ( 它 的 VM_SHARE 标 志 被 清 0) 存 人 同一 个 页 框 中 ;在 
这 种 情况 下 ， 无 论 哪 一 个 进程 试图 改动 这 个 页 都 应 当 产 生 一 个 异常 。 


。 ”正如 在 第 二 章 中 提 到 的 ，80x86 处 理 器 的 页 表 仅 有 两 个 保护 位 ， 即 Read/Write 和 
User/Supervisor 标 志 。 此 外 ， 一 个 线性 区 所 包含 的 任何 一 个 页 的 User/ 
Supervisor 标 志 必 须 总 置 为 !， 因 为 用 户 态 进程 必须 总 能 够 访问 其 中 的 页 。 

. 启用 PAE 的 新 近 Intel Pentium 4 微 处 理 器 ， 在 所 有 64 位 页 表现 中 支持 NX(No 


eXecute) 标 志 。 


如 果 内 核 没有 被 编译 成 支持 PAE, 那么 Linux 采取 以 下 规则 以 克服 80x86 微 处 理 器 的 硬 
件 限制 ; 

。 。 读 访问 权限 总 是 隐 含 着 执行 访问 权限 ， 反 之 亦 然 。 

。 号 访问 权限 总 是 隐 含 着 读 访问 权限 。 

反之 ， 如 果 内 核 被 编译 成 支持 PAE， 而 且 CPU 有 NX 标志 ，Linux 就 采取 不 同 的 规则 ， 
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。 ”执行 访问 权限 总 是 隐 含 着 读 访 问 权 限 。 
。 ” 写 访问 权限 总 是 隐 含 着 读 访 问 权 限 。 


此 外 ,为 了 做 到 在 “ 写 时 复制 ”技术 中 适当 地 推迟 页 框 的 分 配 (参见 本 童 后面 的 内 容 )， 
只 要 相应 的 页 不 是 由 多 个 进程 所 共享 ， 那 么 ， 这 种 页 框 都 是 写 保护 的 。 


因此 ， 要 根据 以 下 规则 精简 由 读 、 写 、 执 行 和 共享 访问 权限 的 16 种 可 能 组 合 : 


. 如 果 页 具有 写 和 共享 两 种 访 丫 权限， 那么 ，Read/Write 位 被 设置 为 1。 


。 如 果 页 具有 读 或 执行 访问 权限 , 但 是 既 设 有 写 也 没有 共享 访问 权限 , 那么 ，Read/ 
write 位 被 清 0。 

。 如 果 支 持 NX 人 位， 而 且 页 没有 执行 访 回 权限 ， 那 么 ， 把 NX 位 设置 为 1。 

如 果 页 没有 任何 访问 权限 ,那么 ，Present 位 被 清 0， 以 便 每 次 访问 都 产生 一 个 缺 
页 异常 。 然 而 ， 为 了 把 这 种 情况 与 真正 的 页 框 不 存在 的 情况 相 区 分 ，Linux 还 把 
Page size 位 置 为 1 ( 注 4)。 


访问 权限 的 每 种 组 合 所 对 应 的 精简 后 的 保护 位 存放 在 protect ion_map 数 组 的 16 个 元 素 中 。 


线性 区 的 处 理 


对 控制 内 存 处 理 所 用 的 数据 结构 和 状态 信息 有 了 基本 理解 以 后 ,我 们 来 看 一 组 对 线性 区 
描述 符 进 行 操 作 的 低层 函数 。 这 些 国 数 应 当 被 看 作 向 化 了 aqo_map () 和 qdqo_unmap () 实 现 
的 辅助 函数 。 这 两 个 钢 数 将 在 本 章 后 面 的 “分 配 线性 地 址 区 间 ” 和 “释放 线性 地 址 区 
间 ” 两 节 中 进行 描述 ， 它 们 分 别 扩 大 或 者 缩小 进程 的 地 址 空间 。 这 两 个 函数 所 处 的 层次 
比 我 们 在 这 里 所 考虑 函数 的 层次 要 高 一 些 , 它们 并 不 接受 线性 区 描述 符 作为 参数 , 而 是 
使 用 一 个 线性 地 址 区 间 的 起 始 地 址 、 长 度 和 访问 限 权 作为 参数 。 


查找 给 定 地 址 的 最 邻近 区 : find_vma() 

findq_vma() 国 数 有 两 个 参数 : 进程 内 存 描述 符 的 地 址 mm 和 线性 地 址 addqr。 它 查找 线性 
区 的 vm_end 字段 大 于 addr 的 第 一 个 线性 区 的 位 置 ， 并 返回 这 个 线性 区 描述 符 的 地 址 ， 
如 果 没 有 这 样 的 线性 区 存在 ， 就 返回 一 个 NULL 指针 。 注 意 由 find_vma () 了 范 数 所 选择 
的 线性 区 并 不 一 定 要 包含 addr， 因 为 addr 可 能 位 于 任何 线性 区 之 外 。 








注 4: 你 可 能 认为 Page size 位 的 这 种 用 法 并 不 正当 ， 因 为 这 个 位 本 来 是 表示 实际 页 的 大 小 。 
但 是 ，Linux 可 以 侥幸 逃脱 这 种 胸 局 ， 因 为 80 x 86 芯 片 在 页 目录 项 中 检查 Page size 
位 ， 而 不 是 在 页 表 的 表 项 中 检查 该 位 。 
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每 个 内 存 描述 符 包含 一 个 mmap_cache 字 段 ,这 个 字段 保存 进程 最 后 一 次 引用 线性 区 的 
描述 符 地 址 ,引进 这 个 附加 的 字段 是 为 了 减少 查找 一 个 给 定 线 性 地 址 所 在 线性 区 而 花费 
的 上 时间。 程序 中 引用 地 址 的 局 部 性 使 下 面 这 种 情况 出 现 的 可 能 性 很 大 : 如 果 检 查 的 最 后 
一 个 线性 地 址 属于 茶 一 给 定 的 线性 区 , 那么 , 下 一 个 要 检查 的 线性 地 址 也 属于 这 一 个 线 
性 区 。 


因此 , 该 函数 一 开始 就 检查 由 mmap_cache 所 指定 的 线性 区 是 否 包 含 addr。 如 果 是 ,就 
返回 这 个 线性 区 描述 符 的 指针 : 


vma = mm->mmap_cache; 
If (vma && vma->vm end > addr && vma->vm start <= addr) 
return Vma ; 


否则 ， 必 须 扫 描 进 程 的 线性 区 ， 并 在 红 - 墨 树 中 查找 线性 区 : 


rb node = mm->mm_rb.rb_ node; 
vina = NULL; 
while (rb _ node) ({ 
vma_tmp = rb_entrylrb _ node, struct vm area_struct, vm_rb)}; 
if (vma_tmp->vm_ end > addr) 1 
vma = vma_tmp; 
if (vma_ tmp->vm start <= addr) 
break:; 
rb _ node = rb _ node->rb left, 
} else 
rb node = rb_node->rb right, 
} 
if (vma) 
mm->mmap_cache = Vvma; 
return vma; 


图 数 使 用 的 宏 rb_entry, 从 指向 红 一 黑 树 中 一 个 节点 的 指针 导出 相应 线性 区 描述 符 的 地 址 。 


国 数 find_vma_prev() 与 find_vma() 类 似 , 不 同 的 是 它 把 函数 选中 的 前 一 个 线性 区 摘 
述 符 的 指针 赋 给 附加 参数 ppre。 


最 后 ， 国 数 find_vma_prepare() 确 定 新 叶子 节点 在 与 给 定 线性 地 址 对 应 的 红 一 黑 树 中 
的 位 置 ， 并 返回 前 一 个 线性 区 的 地 址 和 要 插入 的 叶子 节点 的 父 节 点 的 地 址 。 


查找 一 个 与 给 定 的 地 址 区 间 相 重奏 的 线性 区 : find_vma_intersection() 


findq_vma_intersection() 国 数 查 找 与 给 定 的 线性 地 址 区 间 相 重 登 的 第 一 个 线性 区 .mm 
参数 指向 进程 的 内 存 描述 符 ， 而 线性 地 址 start_adqr 和 ena_adqdqr 指定 这 个 区 间 。 


vma = fingd vma {mm,start_ aqqr) ， 
if (vma && end addr <= vma->vm_start) 
vina = NULL; 


return vina; 
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如 果 没 有 这 样 的 线性 区 存在 , 国 数 就 返回 一 个 NULL 指针 。 准确 地 说 , 如 果 fingd_vma() 
国 数 返回 一 个 有 效 的 地 址 ， 但 是 所 找到 的 线性 区 是 从 这 个 线性 地 址 区 间 的 末尾 开始 的 ， 
vma 就 被 置 为 NULL。， 


查找 一 个 空闲 的 地 址 区 间 : get_unmapped_areal() 


国 数 get_unmappeq_area() 搜 查 进 程 的 地 址 空间 以 找到 一 个 可 以 使 用 的 线性 地 址 区 间 。 
len 参数 指定 区 间 的 长 度 ， 而 非 空 的 aaqr 参数 指定 必须 从 哪个 地 址 开始 进行 查找 。 如 
果 查 找 成 功 ， 国 数 返 回 这 个 新 区 间 的 起 始 地 址 ;否则 返回 错误 码 -ENOMEM。 


如 果 参 数 addr 不 等 于 NULL ， 国 数 就 检查 所 指定 的 地 址 是 否 在 用 户 态 空间 并 与 页 边界 
对 齐 。 接 下 来 ,， 销 数 根据 线性 地 址 区 间 是 否 应 该 用 于 文件 内 存 上 映射 或 匿名 内 存 映 射 , 调 
用 两 个 方法 (get_unmapped_area 文 件 操作 和 内 存 描述 符 的 get_unmapped_area 方 法 ) 
中 的 一 个 。 在 前 一 种 情况 下 , 函数 执行 get_unmappeqd_area 文 件 操作 , 在 第 十 六 章 将 对 
此 进行 讨论 。 


在 第 二 种 情况 下 ， 国 数 执行 内 存 拉 述 符 的 get_unmappeq_area 方 法 。 根 据 进程 的 线性 区 
类 型 ， 由 国 数 arch_get_unmappedq_areal) 或 arch_get_unmapped_area_topdown () 实 
现 get_unmapped_area 方 法 。 在 第 二 十 章 “ 程 序 段 和 进程 的 线性 区 ”一 节 ， 我 们 将 会 看 
到 通过 系统 调用 mmap (), 每 个 进程 都 可 能 获得 两 种 不 同形 式 的 线性 区 : 一 种 从 线性 地 址 
0x40000000 开 始 并 向 高 端 地 址 增长 ， 另 一 种 正好 从 用 户 态 堆栈 开始 并 向 低 端 地 址 增长 。 


现在 我 们 讨论 函数 arch_get_unmapped_area(), 在 分配 从 低 端 地 址 向 高 端 地 址 移动 的 
线性 区 时 使 用 这 个 函数 。 它 本 质 上 等 价 于 下 面 的 代码 片段 : 


if (len > TASK SIZE) 
return -ENOMEM; 
adgdr = (addr + Oxfff) & Oxfffff000; 
If (addr && addr + len <= TASK_ SIZE) { 
vma = find vma(current->mm, addr)})., 
If (lvyvma || addr + len <= vma->vm_ start) 
return addr:; 
} 


start_addr = addr = mm->free area_cache; 


for (vma = find vma(current->mm, adgdr}; ; vma = vma->vm next) 1 
if (addr + len > TASK SIZE) { 
if (start addr == (TASK SIZE/3+0xfff}&Oxfffff000) 


return -ENOMEM; 
start addr = addr = {TASK_SIZE/3+0xfff)&Oxfffff000; 
vma = find_vmal(current->mm, addr); 
} 
if {ivma || addr + len <= vma->vm_start) { 
mm->free area_cache = addr + len; 
return addr:; 
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} 
addr = vma->vm_end; 


} 


国 数 首 先 检 查 区 间 的 长 度 是 否 在 用 户 态 下 线性 地 址 区 间 的 限 长 TASK-SIZE (通常 为 
3GB) 之 内 。 如 果 addr 不 为 0， 函数 就 试图 从 addr 开始 分 配 区 间 。 为 了 安全 起 见 ， 后 
数 把 addr 的 值 调 整 为 4KB 的 倍数 。 


如 果 addr 等 于 0 或 前 面 的 搜索 失败 ， 国 数 arch_get_unmappeqd_area() 就 扫描 用 户 态 
线性 地 址 空间 以 查找 一 个 可 以 包含 新 区 的 足够 大 的 线性 地 址 范围 ,但 任何 已 有 的 线性 区 
都 不 包括 这 个 地 址 范围 。 为 了 提高 搜索 的 速度 ， 让 搜索 从 最 近 被 分 配 的 线性 区 后 面 的 
线性 地 址 开始 。 把 内 存 描述 符 的 字段 mm->free_area_cache 初始 化 为 用 户 态 线性 地 址 
空间 的 三 分 之 一 (通常 是 1GB )， 并 在 以 后 创建 新 线性 区 时 对 它 进 行 更 新 。 如 果 国 数 找 
不 到 一 个 合适 的 线性 地 址 范围 ,就 从 用 户 态 线 性 地 址 空间 的 三 分 之 一 的 开始 处 重新 开始 
搜索 : 其 实 , 用 户 态 线性 地 址 空间 的 三 分 之 一 是 为 有 预定 义 起 始 线性 地 址 的 线性 区 ( 典 
型 的 是 可 执行 文件 的 正文 段 、 数 据 段 和 bss 段 ， 参 见 第 二 十 章 ) 而 保留 的 。 


国 数 调 用 findq_vma () 以 确定 搜索 起 点 之 后 第 一 个 线性 区 终点 的 位 置 ,可 能 出 现 三 种 情况 : 


。 ”如 果 所 请 求 的 区 间 大 于 正 待 扫描 的 线性 地 址 空间 部 分 (addr + len > TASK-SIZE)， 
函数 就 从 用 户 态 地 址 空间 的 三 分 之 一 处 重新 开始 搜索 , 如果 已 经 完成 第 二 次 搜索 ， 
就 返回 -ENOMEM 《没有 足够 的 线性 地 址 空间 来 满足 这 个 请 求 )。 


。 ”刚刚 扫描 过 的 线性 区 后 面 的 空闲 区 设 有 足够 的 大 小 (vma != NULL && vma->vm_start 
< aqqr + len)。 此 时 ,继续 性 虑 下 一 个 线性 区 。 


。 ”如 采 以 上 两 种 情况 都 没有 发 生 , 则 找到 一 个 足够 大 的 空 几 区 ,此 时 ,函数 返回 adar。 


器 内 存 描述 符 链 表 中 插入 一 个 线性 区 : insert_vm_struct() 


insert_vm_struct () 畏 数 在 线性 区 对 象 链表 和 内 存 描述 符 的 红 - 墨 树 中 播 和 一 个 
vm_area_struct 结 构 。 这 个 图 数 使 用 两 个 参数 : mm 指定 进程 内 存 描述 符 的 地 址 ，vmp 
指定 要 播 入 的 vm_area_struct 对 象 的 地 址 。 线 性 区 对 象 的 vm_start 和 vm_end 字 段 必 
定 已 经 初始 化 过 。 该 函数 调用 find_vma_prepare() 在 红 一 黑 树 mm->mm_rb 中 查找 vma 
应 该 位 于 何 处 。 然 后 ，insert_vm_struct () 又 调用 vma_link() 国 数 , 后 者 依次 执行 以 
下 操作 : 


1. 在 mm->mmap 所 指向 的 链表 中 插入 线性 区 。 
2. 在 红 一 黑 树 mm->mm_rb 中 插入 线性 区 。 
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3. ”如果 线性 区 是 匿名 的 ,就 把 它 播 入 以 相应 的 anon_vma 数 据 结构 作为 头 节点 的 链表 
中 参见 第 十 七 章 “ 匿 名 页 的 反 回 映射 一 节 )。 


4. 递增 mm->map_count 计数 器 。 
如 果 线 性 区 包含 一 个 内 存 映 射 文件 , 则 vma_link() 函 数 执行 在 第 十 七 章 描 述 的 其 他 任务 。 


_ _vma_unlink() 函 数 接收 的 参数 为 一 个 内 存 接 述 符 地 址 mm 和 两 个 线性 区 对 象 地 址 vma 
和 prev。 两 个 线性 区 都 应 当 属于 mm，prev 应 当 在 线性 区 的 排序 中 位 于 vma 之 前 。 该 
函数 从 内 存 描 述 符 链表 和 红 一 黑 树 中 删除 vma, 如 果 mm->mmap_cache (存放 刚 被 引用 的 
线性 区 ) 字段 指向 刚 被 删除 的 线性 区 ， 则 还 要 对 mm- >mmap_cache 进行 更 新 。 


分 配 线 性 地 址 区 间 

现在 让 我 们 讨论 怎样 分 配 一 个 新 的 线性 地 址 区 间 。 为 了 做 到 这 点 ，9o_mmap () 函数 为 当 
前 进程 创建 并 初始 化 一 个 新 的 线性 区 。 不 过 , 分 配 成 功 之 后 , 可 以 把 这 个 新 的 线性 区 与 
进程 已 有 的 其 他 线性 区 进行 合并 。 


do_mmap () 函 数 使 用 下 面 的 参数 : 


file 和 offset 
如 果 新 的 线性 区 将 把 一 个 文件 映射 到 内 存 ， 则 使 用 文件 描述 符 指 针 file 和 文件 偏 
移 量 offset。 这 个 主题 将 在 第 十 六 章 进行 讨论 。 在 这 一 节 中 ， 我 们 假定 不 需要 内 
存 映射 ， 并 且 file 和 offset 都 为 空 。 


addr 

这 个 线性 地 址 指定 从 何 处 开始 查找 一 个 空闲 的 区 间 。 
len 

线性 地 址 区 间 的 长 度 。 
prot 


这 个 参数 指定 这 个 线性 区 所 包含 页 的 访问 权限 。 可 能 的 标志 有 PROT_RERAD、 
PROT_WRITE、PROT_EXEC 和 PROT_NONE。 前 三 个 标志 与 标志 VM_RERAD、 
VM_WRITE 及 VM_EXEC 的 意义 一 样 。PROT_NONE 表示 进程 没有 以 上 三 个 访问 权 
限 中 的 任意 一 个 。 

flag 
这 个 参数 指定 线性 区 的 其 他 标志 : 


MAP_GROWSDOWN. MAP_LOCKED, MAP._ DENYWRITE 和 MAP_EXECUTABLE 


它们 的 含义 与 表 9-5 中 所 列 出 标志 的 含义 相同 。 
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MAP_SHARED 和 MAP_PRIVATE 
前 一 个 标志 指定 线性 区 中 的 页 可 以 被 几 个 进程 共享 ; 后 一 个 标志 作用 相反 。 这 
两 个 标志 都 指向 vm_area_struct 描述 符 中 的 VM_SHARED 标志 。 
MAP_FIXED 
区 间 的 起 始 地 址 必须 是 由 参数 addr 所 指定 的 。 
MAP_ANONYMOUS 
没有 文件 与 这 个 线性 区 相关 联 (参见 第 十 六 章 )。 
MAP_ NORESERVE 
国 数 不 必 有 预先 检查 空闲 页 框 的 数目 。 
MAP_POPULATE 
国 数 应 该 为 线性 区 建立 的 映射 提前 分 配 需要 的 页 框 。 该 标志 仅 对 映射 文件 的 线 
性 区 (参见 第 十 六 章 ) 和 IPC 共享 的 线性 区 (参见 第 十 九 章 ) 有 意义 。 
MAP_NONBLOCK 
只 有 在 MAP_POPULATE 标志 置 位 时 才 有 意义 : 提前 分 配 页 框 时 ， 函数 肯 定 不 
阻塞 。 


do_mmap () 国 数 对 offset 的 值 进 行 一 些 初 步 检 查 , 然后 执行 ao_mmap_pgoff () 国 数 。 本 
章 假设 新 的 线性 地 址 区 间 映 射 的 不 是 磁盘 文件 (在 第 十 六 章 将 详细 讨论 文件 内 存 映射 )。 
这 里 仅 对 实现 匿名 线性 区 的 dao_mmap_pgoff () 国 数 进行 说 明 。 


]. 


检查 参数 的 值 是 否 正 确 , 所 提 的 请 求 是 否 能 被 斑 足 。 尤 其 是 要 检查 以 下 不 能 满足 请 

求 的 条 件 : 

。 线性 地 址 区 间 的 长 度 为 0 或 者 包含 的 地 址 大 于 TASK_SIZE。 

。 进程 已 经 映射 了 过 多 的 线性 区 ， 因 此 mm 内 存 描 述 符 的 map_count 字段 的 值 超 
过 了 允许 的 最 大 值 。 

。 flag 参 数 指 定 新 线性 地 址 区 间 的 页 必须 被 锁 在 RAM 中 , 但 不 允许 进程 创建 上 
锁 的 线性 区 ， 或 者 进程 加 锁 页 的 总 数 超过 了 保存 在 进程 描述 符 signal- 
>rlim[RLIMIT MRMLOCK] .rliim_cur 字段 中 的 国 值 。 

如 果 以 上 情况 中 的 任何 一 个 成 立 , 则 ao_mmap_pgoff () 国 数 终止 并 返回 一 个 负 值 。 

如 果 线 性 地 址 区 间 的 长 度 为 0， 则 国 数 不 执 行 任 何 操作 就 返回 。 

调用 get_unmapped_area() 获 得 新 线性 区 的 线性 地 址 区 间 (参见 上 一 节 “ 线 性 区 

的 处 理 ”) 

通过 把 存放 在 prot 和 flags 参数 中 的 值 进行 组 合 来 计算 新 线性 区 描述 符 的 标志 : 
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vm_flags = calc vm prot_bits (prot,flags) | 
calc_ vm flag_bits(prot,flags) | 
mm->def_flags | VM MAYREAD | VM MAYWRITE | VM MAYEXEC:; 
If (flags & MAP_SHARED) 
vm_ flags |= VM_ SHARED | VM_MAYSHARE; 


只 有 在 prot 中 设置 了 相应 的 PROT_READ、PROT_WRITE@ 和 PROT_EXEC 标志 ， 
calc_vm_prot_bits() 函 数 才 在 vm_flags 中 设置 VM_READ、VM_WRITE 和 VM_EXEC 标 志 ， 
只 有 在 flags 设置 了 相应 的 MAP_GROWSDOWN、MAP_DENYWRITE、 MAP_EXECUTABLE 和 
MAP_LOCKED 标 志 ，calc_vm_flag_bits() 也 才 在 vm_flags 中 设置 VM_GROWSDOWN、 
VM_DENYWRITE、VM_EXECUTABLE 和 VM-LOCKED 标 志 。 在 vm_flags 中 还 有 几 个 标志 被 置 为 
] ，VM_MAYREAD，VM_MAYWRITE，VM_MAYEXEC, 在 mm->def_flags ( 注 5) 中 所 有 线性 区 
的 默认 标志 ， 以 及 如 果 线 性 区 的 页 与 其 他 进程 共享 时 的 VM_SHARED 和 VM_MAYSHARE。 


4. ”调用 find_vma_prepare() 确 定 处 于 新 区 间 之 前 的 线性 区 对 象 的 位 置 , 以 及 在 红 一 


黑 树 中 新 线性 区 的 位 置 : 
for (;;) { 
vma = find vma_ prepare{mm, addr, &prev, &rb link, &rb parent).: 
if {ivma 1 vma->vm start >= addr + len) 
break:; 


if (do_ munmap (mm, addr, len)}) 
return -ENOMEM: 
} 


finq_vma_prepare() 国 数 也 检查 是 否 还 存在 与 新 区 回 重 登 的 线性 区 。 这 种 情况 发 
生 在 函数 返回 一 个 非 空 的 地 址 , 这 个 地 址 指向 一 个 线性 区 , 而 该 区 的 起 始 位 置 位 于 
新 区 间 结 束 地 址 之 前 的 时 候 。 在 这 种 情况 下 , do_mmap_pgoff() 调 用 do_munmap () 
删除 新 的 区 间 ， 然 后 重复 整个 步骤 (参见 下 一 节 “ 释 放 线 性 地 址 区 间 ”)。 


>. 检查 插入 新 的 线性 区 是 否 引 起 进程 地 址 空间 的 大 小 (mm->total_vm<<PAGE,_SHIFT) +len 
超过 存放 在 进程 描述 符 signal->rlim[RLIMIT_AS] .rlim_cur 字 7 段 中 的 赋 值 。 如 果 
是 ,就 返回 出 错 码 -ENOMEM。 注意 , 这 个 检查 只 在 这 里 进行 , 而 不 在 第 1 步 与 其 他 
检查 一 起 进行 ， 因 为 一 些 线 性 区 可 能 在 第 4 步 就 被 删除 。 

6. 如果 在 flags 参 数 中 设 有 设置 MAP_NORESERVE 标志 ， 新 的 线性 区 包含 私有 可 写 
页 ， 并 且 没 有 足够 的 空闲 页 框 ， 则 返回 出 错 码 -ENOMEM， 这 最 后 一 个 检查 是 由 
security_vm_enough_memory () 国 数 实现 的 。 


7. ”如 果 新 区 间 是 私有 的 (没有 设置 VM_SHARED), 是 映射 的 不 是 磁盘 上 的 一 个 文件 ， 
那么 ， 调 用 vma_merge () 检 查 前 一 个 线性 区 是 否 可 以 以 这 样 的 方式 进行 扩展 来 包 


注 5: 实际 上 ， 内 存 描述 竺 的 aef_flags 字段 只 能 由 mlockall() 系 统 调 用 修改 ,这 个 系统 调 
用 可 以 设置 VM_LOCKED 标 志 ， 由 此 而 镇 住 RAM 中 调用 进程 的 未 来 所 有 页 。 
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含 新 的 区 间 。 当 然 ， 前 一 个 线性 区 必须 与 在 vm_flags 局 部 变量 中 存放 标志 的 那些 
线性 区 具有 完全 相同 的 标志 。 如 果 前 一 个 线性 区 可 以 扩展 , 那么 ,vma_merge() 也 
试图 把 它 与 随后 的 线性 区 进行 合并 (这 发 生 在 新 区 间 填 充 两 个 线性 区 之 间 的 空洞 ， 
且 三 个 线性 区 全 部 具有 相同 的 标志 的 时 候 ) 。 万 一 在 扩展 前 一 个 线性 区 时 获得 成 功 ， 
则 跳 到 第 12 步 。 


调用 slab 分 配 国 数 kmem_cache_alloc1() 为 新 的 线性 区 分 配 一 个 vm_area_struct 
数据 结构 。 


急 始 化 新 的 线性 区 对 象 (由 vma 指 疝 ): 


vma->vm_mm = mm; 


vma->vm_start = addr:; 
vma->vm end = addr + len; 
vma->vm flags = vm flags， 


vma->vm_page_prot = protection maplvm_flags & Ox0f]; 
vma->Vvm_ops = NULL:; 

vma->vm_ pgoff = pgoff; 

vma->vm_ file = NULL:; 

vma->vm_private_data = NULL,; 

vma->Vvm next = NULL; 

INIT_LIST_HEADI&vma->Shared).:; 


如 果 MAP_SHARED 标 志 被 设置 (以 及 新 的 线性 区 不 映射 磁盘 上 的 文件 ), 则 该 线性 区 
是 一 个 共享 匿名 区 : 调用 shmem_zero_setup() 对 它 进行 初始 化 。 共 享 匿名 区 主要 
用 于 进程 间 通 信 (参见 第 十 九 章 “IPC 共享 内 存 ” 一 节 )。 


， 调用 vma_link() 把 新 线性 区 插入 到 线性 区 链表 和 红 一 黑 树 中 (参见 前 面 “线性 区 


的 处 理 ” 一 市 )。 


. 增加 存放 在 内 存 描述 符 total_vm 字 段 中 的 进程 地 址 空间 的 大 小 。 
. 如 果 设 置 了 VM_LOCKED 标 志 , 就 调用 make_pages_present () 连 续 分 配 线性 区 的 所 


有 页 ， 并 把 它们 锁 在 RAM 中 : 


if (vm flags & VM LOCKED) { 
mm->locked_vm += len >> PAGE SHIFT; 
make_pages_present (addr, addr + len); 
} 


make-pages-present () 范 数 按 如 下 方式 调用 get_user_pages () : 


write = {vma->vm_flags & VM WRITE) != 0; 
get_user_pages (current, current->mm, addr, len, write, 0, NULDL, 
NULL)}).; 


get_user_pages () 图 数 在 adadqr 和 aqdr+len 之 旧 页 的 所 有 起 始 线性 地 址 上 循环 对 
于 其 中 的 每 个 页 ,该 函数 调用 follow_page() 检 查 在 当前 页 表 中 是 否 有 到 物理 页 的 
映射. 如果 没有 这 样 的 物理 页 存在 , 则 get_user_pages () 调 用 hanale_rm_fault()， 
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我 们 将 在 “处 理 地 址 空间 内 的 错误 地 址 ”一 市 看 到 ， 后 一 个 函数 分 配 一 个 页 框 并 根 
据 内 存 描述 符 的 vm_flags 字段 设置 它 的 页 表 项 。 


14. 最后， 函数 通过 返回 新 线性 区 的 线性 地 址 而 终止 。 


释放 线性 地 址 区 间 


内 核 使 用 ac_munmap () 畏 数 从 当前 进程 的 地 址 空间 中 删除 一 个 线性 地 址 区 间 。 参 数 为 : 
进程 内 存 描述 符 的 地 址 mm, 地 址 区间 的 起 始 地 址 start 和 它 的 长 度 len。 要 删除 的 区 间 
并 不 总 是 对 应 一 个 线性 区 , 它 或 许 是 一 个 线性 区 的 一 部 分 ,或许 跨 越 两 个 或 多 个 线性 区 。 


do_munmap() 函 数 


该 函数 经 过 两 个 主要 的 阶段 。 第 一 阶段 〈 第 1~6 步 )， 扫 拉 进 程 所 拥有 的 线性 区 链表 ， 
并 把 包含 在 进程 地 址 空间 的 线性 地 址 区 间 中 的 所 有 线性 区 从 链表 中 解除 链接 .第 二 阶段 
(第 7~12 步 ), 更 新 进程 的 页 表 ， 并 把 第 一 阶段 找到 并 标识 出 的 线性 区 删除 。 函 数 利用 
稍 后 要 说 明 的 split_vma() 和 unmap_region{() 国 数 。do_munmap () 执 行 下 面 的 步骤 : 


1. 对 参数 值 进行 一 些 初 步 检查 : 如 果 线 性 地 址 区 间 所 含 的 地 址 大 于 TASK_SIZE, 如 
果 start 不 是 4096 的 倍数 , 或 者 如 果 线 性 地 址 区 间 的 长 度 为 0, 则 函数 返回 一 个 错 
误 代 码 -EINVAL。 

2. ”确定 要 删除 的 线性 地 址 区 间 之 后 第 一 个 线性 区 mpnt 的 位 置 (mpnt->end> start)， 
如 果 有 这 样 的 线性 区 : 


mpnt = find vma_prev (mm, start, &prev);: 


3. 如 果 没 有 这 样 的 线性 区 , 也 没有 与 线性 地 址 区 间 重 登 的 线性 区 , 就 什么 都 不 做 ， 
为 在 该 区 间 上 没有 线性 区 : 


end = start + len; 
If (impnt 1 mnt->vm_start >= end) 
return 0; 


4. 如 果 线 性 区 的 起 始 地 址 在 线性 区 mpnt 内 ， 就 调用 split_vma() (在 下 面 说 明 ) 把 
线性 区 mpnt 划分 成 两 个 较 小 的 区 : 一 个 区 在 线性 地 址 区 间 外 部 , 而 另 一 个 在 区 间 
内 部 。 


if (StLart > mpnt->vm start) ({ 
if (split_vma(lmm, mpnt, start, 0})) 
return -ENOMEM ; 
prev = mpnt;} 


更 新 局 部 变量 prev， 以 前 它 存 储 的 是 指 四 线性 区 mpnt 前 面 一 个 线性 区 的 指针 ， 现 在 
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要 让 它 指 同 mpnt，, 即 指 向 线性 地 址 区 间 外 部 的 那个 新 线性 区 。 这样, prev 仍然 指 回 要 
删除 的 第 一 个 线性 区 前 面 的 那个 线性 区 。 


5. 如果 线 性 地 址 区 间 的 结束 地 址 在 一 个 线性 区 内 部 ， 就 再 次 调用 split_vma() 把 最 
后 重 登 的 那个 线性 区 划分 成 两 个 较 小 的 区 : 一 个 区 在 线性 地 址 区 间 内 部 , 而 另 一 个 
在 区 间 外 部 ( 注 6): 


last = find_vma (mm, end)}); 
if {last é&& end > last->vm start)}))t 
if (split vma{(mm, last, start, end, 1)) 
return -ENOMEM; 
} 


6. 更 新 mpnt 的 值 , 使 它 指向 线性 地 址 区 间 的 第 一 个 线性 区 。 如 果 prev 为 NULL, 即 
设 有 上 述 线性 区 ， 就 从 mm- >mmap 获得 第 一 个 线性 区 的 地 址 : 


mpnt = prev ? prev->vm nNext : mm->mmaP ， 


7. 调用 detach_vmas_to_be_unmapped() 从 进程 的 线性 地 址 空间 中 删除 位 于 线性 地 
址 区 间 中 的 线性 区 。 该 函数 本 质 上 执行 下 面 的 代码 : 


vma = mpnt,; 
insertion point = (prev ? &prev->vm next : &mm->mmap); 
do { 
rb eraset{&vma->vm_rb, &mm- >mm rb),; 
mm->map_count--; 
tail_vma = vma; 
vma = vma->next.; 
} while (vma && vma->start < end}:; 
*]nsertion point = vma; 
tail_ vma->vm next = NULL,; 
mm->map_cache = NULL:; 


要 删除 的 线性 区 的 描述 符 放 在 一 个 排 好 序 的 链表 中 , 局 部 变量 mpnt 指 疝 该 链表 的 
头 (实际 上 ， 这 个 链表 只 是 进程 初始 线性 区 链表 的 一 部 分 )。 
8. 获得 mm->page_table_lock 自 旋 锁 ，。 


9. ”调用 unmap_region() 清 除 与 线性 地 址 区 间 对 应 的 页 表 项 并 释放 相应 的 页 框 ( 稍 后 
讨论 ) : 


unmap_region{mm, mpnt, prev, start, end).; 


10. 释放 mm->page_table_lock 自 旋 锁 。 


注 6: 如 果 线 性 地 址 区 间 正 好 包含 在 某 个 线性 区 内 部 , 就 必须 用 用 个 较 小 的 新 线性 区 取代 该 线 
性 区 。 当 发 生 这 种 情况 时 ， 在 第 4 沙 和 第 5 步 把 该 线性 区 分 成 三 个 较 小 的 线性 区 : 删除 
中 间 的 那个 线性 区 ， 而 保留 第 一 个 和 最 后 一 个 线性 区 。 
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释放 在 第 7 步 建立 链表 时 收集 的 线性 区 描述 符 : 


do { 
Struct vm area_struct * next = mpont->vm next,; 
unmap_vma (mm, mpnt),， 
mpnt = next; 

} while {mpnt != NULL)}); 


对 在 链表 中 的 所 有 线性 区 调用 unmap_vma () 国 数 ， 它 本 质 上 执行 下 述 步骤 : 
a 更 新 mm->total_vm 和 mm->locked_vm 字 上 段 。 


b. 执行 内 存 描述 符 的 mm->unmap_area 方 法 。 根据 进程 线性 区 的 不 同类 型 (参见 前 面 
“线性 区 的 处 理 ” 一 节 ) 可 以 选择 arch | area () 或 arch 1 ) area topdown () 
中 的 一 个 来 实现 mm->unmap_area 方 法 。 如果 必 要 ,在 两 种 情况 下 都 要 更 新 mm- 


>free_area_cache 字段 。 
c. 调用 线性 区 的 close 方 法 (如果 定义 了 的 话 )。 
d. 如 果 线 性 区 是 匿名 的 , 则 函 数 把 它 从 rm->anon_vma 所 指向 的 匿名 线性 区 链表 中 删除 。 
e. 调用 kmem_cache_free() 释 放 线 性 区 描述 符 。 
返回 0 (成 功 )。 


split_vma() 函 数 

split_vma() 图 数 的 功能 是 把 与 线性 地 址 区 间 交 叉 的 线性 区 划分 成 两 个 较 小 的 区 ， 一 个 
在 线性 地 址 区 间 外 部 , 另 一 个 在 区 间 的 内 部 。 该 图 数 接收 4 个 参数 : 内 存 描述 符 指针 mm， 
线性 区 描述 符 指针 vma (标识 要 被 划分 的 线性 区 ), 表示 区 间 与 线性 区 之 间 交 义 点 的 地 址 
addr， 以 及 表示 区 间 与 线性 区 之 间 交 义 点 在 区 间 起 始 处 还 是 结束 处 的 标志 new_below。 
冰 数 执行 下 述 基 本 步骤 : 


调用 kmem_cache_alloc() 获 得 线性 区 摘 述 符 vm_area_struct， 并 把 它 的 地 址 存 
在 新 的 局 部 变量 中 ， 如 果 设 有 可 用 的 空闲 空间 ， 融 返回 -ENOMEM。 

用 vma 描述 符 的 字段 值 初始 化 新 摘 述 符 的 字段 。 

如 果 标 志 new_below 为 0, 说 明 线 性 地 址 区 间 的 起 始 地 址 在 vma 线性 区 的 内 部 , 因 
此 必须 把 新 线性 区 放 在 vma 线性 区 之 后 ， 所 以 国 数 把 new->vm_start 和 vma- 
>vm_end 字段 都 赋值 为 addr。 

相反 ， 如 果 new_below 标 志 等 于 1, 说 明 线 性 地 址 区 间 的 结束 地 址 在 vma 线 性 区 的 
内 部 , 因此 必须 把 新 线性 区 放 在 vma 线 性 区 的 前 面 , 所 以 孙 数 把 字段 new->vm_end 
和 vma->vm_start 都 赋值 为 aaqar。 


如 果 定 义 了 新 线性 区 的 open 方法 ， 图 数 就 执行 它 。 
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6. 把 新 线性 区 描述 符 链接 到 线性 区 链表 mm->mmap 和 红 一 黑 树 mm->mm_rb。 此 外 ， 铺 
数 还 要 根据 线性 区 vma 的 最 新 大 小 对 红 一 黑 树 进行 调整 。 


7. 返回 0 (成 功 )。 


unmap_region() 函 数 

unmap_region() 函 数 遍 历 线 性 区 链表 并 释放 它们 的 页 框 。 该 函数 作用 于 5 个 参数 ， 内 
存 描 述 符 指针 mm, 指向 第 一 个 被 删除 线性 区 描述 符 的 指针 vma, 指向 进程 链表 中 vma 前 
面 的 线性 区 的 指针 prev (参见 do_munmap () 执 行 步骤 中 心 的 第 2 步 和 第 4 步 ), 以 及 两 
个 地 址 start 和 end, 它们 界定 被 删除 线性 地 址 区 间 的 范围 。 函数 本 质 上 执行 下 述 步 又 : 


1. 调用 iru add drain() (参见 第 十 七 音 )， 


2. 调用 tlpb_gather_mmu() 国 数 初 始 化 每 CPU 变量 mmu_gathers。mmu_gathers 的 
值 依 赖 于 体系 结构 ; 通常 该 变量 应 该 存放 成 功 更 新 进程 页 表 项 所 需要 的 所 有 信息 。 
在 80x86 体 系 结构 中 ,lb_gather_mmu() 国 数 只 是 简单 地 把 内 存 描述 符 指 针 mm 
的 值 瑞 给 本 地 CPU 的 mmu_gathers 变量 。 


3. 把 mmu_gathers 变量 的 地 址 保存 在 局 部 变量 lb 中 。 

4. 调用 unmap_vmas () 扫描” 线 性 地 址 空间 的 所 有 页 表 项 : 如 果 只 有 一 个 有 歼 CPU， 转 
数 就 调用 free_swap_anq_cache() 反 复 释放 相应 的 页 (参见 第 十 七 章 ); 否则 ， 国 
数 就 把 相应 页 描述 符 的 指针 保存 在 局 部 变量 mmu_gathers 中 。 

5. 调用 free_pgtables(tlb,prev,start,end) 回 收 在 上 一 步 已 经 清空 的 进程 页 表 。 

6. 调用 tlb_finish_mmu(tlb,start,end) 结 束 unmap_region() 录 数 的 工作 ， 
tlb_finish_mmu (tlb,start,end) 依 次 执行 下 面 的 操作 : 
a. 调用 flush_ tlb_mrm() 刷 新 TLB (参见 第 二 章 “ 处 理 硬件 高 速 缓存 和 TLB” 一 

三 )。 


b. 在 多 处 理 器 系统 中 , 调用 free_pages_and_swap_cache() 释 放 页 框 , 这 些 页 框 
的 指针 已 经 集中 存放 在 mmu_gather 数 据 结 构 中 了 。 该 函数 的 说 明 见 第 十 七 章 。 


缺 页 异常 处 理 程序 


如 前 所 述 ，Linux 的 缺 页 《Page Fault) 异常 处 理 程序 必须 区 分 以 下 两 种 情况 : 由 编程 错 
误 所 引起 的 异常 ,及 由 引用 属于 进程 地 址 空间 但 还 尚未 分 配 物 理 页 框 的 页 所 引起 的 异常。 


线性 区 括 述 符 可 以 让 缺 页 异常 处 理 程序 非常 有 效 地 完成 它 的 工作 .ao_page_fault () 转 
数 是 80x86 上 的 缺 页 中 断 服务 程序 , 它 把 引起 缺 页 的 线性 地 址 和 当前 进程 的 线性 区 相 比 
较 ， 从 而 能 够 根据 和 图 9-4 所 示 的 方案 选择 适当 的 方法 处 理 这 个 异常 。 
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图 9-4: 缺 页 异常 处 理 程序 的 总 体 万 案 


在 实际 中 ,情况 更 复杂 一 些 , 因为 缺 页 处 理 程序 必须 处 理 多 种 分 得 更 细 有 的 特殊 情况 ， 它 
们 不 宜 在 总 体 方案 中 列 出 来 , 还 必须 区 分 许多 种 合理 的 访问 。 处 理 程序 的 详细 流程 图 如 
图 9-5 所 示 。 

标识 符 vmalloc_fault .good area、bagd area 和 no_context 是 出 现在 do_page fault 1() 
中 的 标记 ， 它 们 有 助 于 你 理 清 病程 图 中 的 块 与 代码 中 特定 行 之 间 的 关系 。 
do_page_fault () 函数 接收 以 下 输入 参数 ， 


。 ”pt_regs 结构 的 地 址 regs, 该 结构 包含 当 异 常 发 生 时 的 微 处 理 器 寄存 器 的 值 。 
。 “3 位 的 error_code, 当 异 第 发 生 时 由 控制 单元 压 入 栈 中 (参见 第 四 章 中 的 “中 断 和 
异常 的 硬件 处 理 ” 一 节 )。 这 些 位 有 以 下 售 义 : 
一 如果 第 0 位 被 清 0， 则 异 和 党 由 访 同 一 个 不 存在 的 页 所 5 起 (页 表 项 中 的 Present 
示 志 被 请 0); 否则 ， 如 果 第 0 位 被 设置 ， 则 异常 由 无 效 的 访问 权限 所 引起 。 
一 如 果 第 1 位 被 清 0, 则 异常 由 读 访 问 或 者 执行 访 回 所 5 引起, 如 果 该 位 被 设置 , 则 
异 稍 由 写 访 加 所 引起 。 
如 果 第 2 位 被 清 0， 则 异常 发 生 在 处 理 器 处 于 内 核 态 时 ， 和 否则， 异常 发 生 在 处 
理 器 处 于 用 户 态 时 。 
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图 9-5: 缺 页 处 理 程序 流程 图 


do_page_fault 0) 的 第 一 步 操作 是 读 取 引 起 缺 页 的 线性 地 址 。 当 异常 发 生 时 ，CPU 控 制 

单元 把 这 个 值 存放 在 cr2 控制 寄存 器 中 : 
asm{("mov] S$%cr2,%0"°:"=r" (address) 
if (regs->eflags & 0xd00020200) 


1 Pp ea pr J ~ 1 
lOcal_Irg_enablel).: 


tsk = current.: 


这 个 线性 地 址 保存 在 aadress 局 部 变量 中 。 如 果 缺 页 发 生 之 前 或 CPU 运行 在 虚拟 8086 
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模式 时 就 打开 了 本 地 中 断 ,， 那么 该 函数 还 要 确保 本 地 中 断 打 开 , 并 把 指向 current 进程 
描述 符 的 指针 保存 在 tsk 局 部 变量 中 。 


正如 图 9-5 中 的 顶部 所 示 , do_page_fault () 首 先 检查 引起 缺 页 的 线性 地 址 是 否 属 于 第 
4 个 GB: 
info.si code = SEGYV_ MAPERR.; 
if (address >»>= TASK SIZE ) 1 
if (error_ code & Ox101)) 
goto vmalloc_fault,;} 


goto bad area_nosemaphore; 


. 


如 果 发 生 了 由 于 内 核 试 图 访问 不 存在 的 页 框 引 起 的 异常 ,就 跳 转 去 执行 vnalloc_fault 
标记 处 的 代码 , 该 部 分 代码 处 理 可 能 由 于 在 内 核 态 访问 非 连续 内 存 区 而 引起 的 人 缺 页 , 我 
们 在 稍 后 “处 理 非 连续 内 存 区 访问 ”一 节 中 对 此 进行 说 明 。 人 否则， 就 跳 转 去 执行 
bad_area_nosemaphore 标 记 处 的 代码 ,在 稍 后 “处 理 地 址 空间 以 外 的 错误 地 址 ”一 节 
中 将 对 此 进行 说 明 。 


接 下 来 , 缺 页 处 理 程序 检查 异常 发 生 时 是 否 内 核 正 在 执行 一 些 关 键 例 程 或 正在 运行 内 核 
线程 (回想 一 下 ， 对 内 核 线程 而 言 ， 进 程 描述 符 的 mm 字段 总 为 NULL ): 


if (21n atomic( ) || !‘'tsk->mm) 
goto bad_area_ nosemaphore,; 


如 果 缺 页 发 生 在 下 面 任何 一 种 情况 下 ， 则 in_atomic() 宏 产生 等 于 1 的 值 : 


。 “内核 正在 执行 中 断 处 理 程序 或 可 延迟 函数 。 
。 ”内核 正 在 禁用 内 核 抢占 的 情况 下 执行 临界 区 代码 (参见 第 五 章 “ 内 核 抢占 ”一 节 )。 


如 果 缺 页 的 确 发 生 在 中 断 处 理 程 序 、 可 延迟 函数 、 临 办 区 或 内 核 线 程 中 ，do _ 
page_fault () 就 不 会 试图 把 这 个 线性 地 址 与 current 的 线性 区 做 比较 。 内 核 线程 从 来 不 
使 用 小 于 TASK_SIZE 的 地 址 。 同样 , 中 断 处 理 程序 、 可 延迟 函数 和 临界 区 代码 也 不 应 该 使 
用 小 于 TASK_SI2zE 的 地 址 ， 因 为 这 可 能 导致 当前 进程 的 阻塞 。( 参 见 本 章 稍 后 “处 理 地 

空间 以 外 的 错误 地 址 "一 市 中 ,对 info 局 部 变量 的 信息 说 明和 对 bad_area_nosemaphor 
标记 处 代码 的 说 明 。) 


让 我 们 假定 缺 页 设 有 发 生 在 中 断 处 理 程序 、 可 延迟 函数 、 临 界 区 或 者 内 核 线程 中 。 于 是 
国 数 必 须 检 查 进 程 所 拥有 的 线性 区 以 决定 引起 缺 页 的 线性 地 址 是 否 包 含 在 进程 的 地 址 空 
间 中 ， 为 此 必须 获得 进程 的 mmap_sem 读 / 写 信号 量 


if (aqown read trylock(&ktsk->mm>mmap_sem})) { 
if {(error code & 4) == 0 &&k 
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!search_exception_ tablel(regs->e1ip}) 
goto bad_area_nosemaphore; 
down_read{(&tsk->mm->mmap_sem)}); 


} 


如 果 内 核 bug 和 硬件 故障 有 可 能 被 排除 ， 那么 当 缺 页 发 生 时 ,当前 进程 就 还 没有 为 写 而 
获得 信号 量 mmap_sem。 尽 管 如 此 ，qo_page_fault() 还 是 想 确定 的 确 没 有 获得 这 个 信 
号 量 ， 因 为 如 果 不 是 这 样 就 会 发 生死 锁 。 所 以 ， 国 数 使 用 down_reaq_crylock() 而 不 
是 down_read() (参见 第 五 章 “ 读 / 写 信号 量 ” 一 节 )。 如 果 这 个 信号 量 被 关闭 而 且 缺 页 
发 生 在 内 核 态 , do_page_fault () 就 要 确定 异常 发 生 的 时 候 , 是否 正在 使 用 作为 系统 调 
用 参数 被 传递 给 内 核 的 线性 地 址 (参见 下 一 节 “ 处 理 地 址 空间 以 外 的 错误 地 址 ”一 区)。 
此 时 ,因为 每 个 系统 调用 服务 例 程 都 小 心地 避免 在 访问 用 户 态 地 址 空间 以 前 为 写 而 获得 
mmap_sem 信 号 量 ,所 以 do_page_fault () 确 信 mmap_sem 信 号 量 由 另外 一 个 进程 占有 了 ， 
从 而 do_page_fault () 一 直 等 待 直到 该 信号 量 被 释放 。 否 则 ， 如 果 缺 页 是 由 于 内 核 bug 
或 严重 的 硬件 故障 引起 的 ， 函 数 就 跳 转 到 baq_area_nosemaphore 标记 处 。 


我 们 假设 已 经 为 读 而 获得 了 mmap_sem 信 号 量 。 现 在 ，do_page_fault () 开 始 搜索 错误 
线性 地 址 所 在 的 线性 区 
vma = find_vma(ltsk->mm, address),; 
if (!vma) 
goto bad_area;: 


If (vma->vm start <= address) 
Goto good area,; 


如 果 vma 为 NULL, 说 明 address 之 后 没有 线性 区 , 因此 这 个 错误 的 地 址 肯定 是 无 效 的 。 
男 一 方面 ， 如 果 在 address 之 后 结束 处 的 第 一 个 线性 区 包含 address, 则 函数 跳 到 标记 
为 good_area 的 代码 处 。 


如 果 两 个 “if” 条 件 都 不 满足 , 则 函数 已 确定 address 没 有 包含 在 任何 线性 区 中 。 可 是 ， 
它 还 必须 执行 进一步 的 检查 ， 由 于 这 个 错误 地 址 可 能 是 由 push 或 pusha 指 令 在 进程 的 
用 户 态 堆栈 上 的 操作 所 引起 的 。 


我 们 稍微 离 题 一 点 , 解释 一 下 栈 是 如 何 映 射 到 线性 区 上 的 。 每 个 向 低地 址 扩展 的 栈 所 在 
的 区 , 它 的 VM_GROWSDOWN 标 志 被 设置 , 这 样 ， 当 vm_start 字 段 的 值 可 能 被 减 小 的 时 
候 ， 而 vm_end 字段 的 值 保 持 不 变 。 这 种 线性 区 的 边界 包括 、 但 不 严格 限定 用 户 态 堆栈 
当前 的 大 小 。 这 种 细微 的 差别 主要 基于 以 下 原因 : 


。 ”线性 区 的 大 小 是 4KB 的 倍数 (必须 包含 完整 的 页 )， 而 栈 的 大 小 却 是 任意 的 。 


。 分 配给 一 个 线性 区 的 页 框 在 这 个 线性 区 被 删除 前 永远 不 被 释放 ,尤其 是 ,一 个 栈 所 
在 线性 区 的 vm_start 字段 的 值 只 能 减 小 ,永远 也 不 能 增加 。 甚 至 进程 执行 一 系列 
的 pop 指令 时 ， 这 个 线性 区 的 大 小 仍然 保持 不 变 。 
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现在 这 一 点 就 很 清楚 了, 当 进 程 填 满分 本 给 它 的 堆栈 的 最 后 一 个 页 框 后 , 进程 如 何 引 起 
一 个 “ 缺 页 ”异常 一 一 push 引用 了 这 个 线性 区 以 外 的 一 个 地 址 ( 即 引 用 一 个 不 存在 的 
页 框 )。 注意 , 这 种 异常 不 是 由 程序 错误 引起 的 , 因此 它 必 须 由 缺 页 处 理 程序 单独 处 理 。 


我 们 现在 回 到 对 do_page_fault () 的 描述 ， 它 检查 上 面 所 描述 的 情况 : 


if (!{vma->vm_flags & VM GROWSDOWN)) 
goto bad area; 
if (error code & 4 Ai* User Mode */ 


&&k address + 32 < regs->esp) 
goto bad_area; 
if (expangd stack(vma, address)})) 
goto bad_area; 
goto good_area; 


如 果 线 性 区 的 VM_GROWSDOWN 标志 被 设置 ， 并 且 异 常 发生 在 用 户 态 ， 函 数 就 要 检查 
address 是否 小 于 regs->esp 栈 指针 ( 它 应 该 只 小 于 一 点 点 )。 因 为 几 个 与 栈 相 关 的 汇 
编 语言 指令 (如 pusha) 只 有 在 访问 内 存 之 后 才 执 行 碱 esp 寄存 器 的 操作 ,所 以 允许 进 
程 有 32 字 节 的 后 备 区 间 。 如 果 这 个 地 址 足够 高 (在 允许 的 范围 内 ) ， 则 代码 调用 
expandq_stack{() 朵 数 检查 是 否 允 许 进程 既 扩 展 它 的 栈 也 扩展 它 的 地 址 空间 。 如 果 一 切 
都 可 以 ， 就 把 vma 的 vm_start 字段 设 为 address， 并 返回 0， 否则 ， 返 回 -ENOMEM。 


注意 : 只 要 线性 区 的 VM_GROWSDOWN 标志 被 设置 , 但 异常 不 是 发 生 在 用 户 态 ， 上 述 代 
码 就 跳 过 容错 检查 。 这 些 条 件 意味 着 内 核 正 在 访问 用 户 态 的 栈 , 也 意味 着 这 段 代 码 总 是 
应 当 运 行 expand_stack()。 
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如 果 aaqdqress 不 属于 进程 的 地 址 空间 ， 那 么 ao_page_fault 1() 国 数 继续 执行 badq_area 
标记 处 的 语句 。 如 果 错 误 发 生 在 用 户 态 , 则 发 送 一 个 SIGSEGV 信 号 给 current 进程 ( 参 
见 第 十 一 章 的 “产生 信号 ”一 节 ) 并 结束 函数 : 

bad area: 


UDP_read(k&kLcsk->mm- >mmap_sem) : 
bad_area_nosemaphore: 


if (error code & 4) 1 /wm User Mode */ 
tsk->thread.cr2 = address,; 
tsk->thread.error code = error code | (address >= TASK SIZE); 


tsk->thread.trap_no = 14; 
info.si_signo = SIGSEGV 
info.si_errno = 0; 

info.si_addr = (void *) address; 
force sig_info(SIGSEGY, &info, tsk); 
return; 


二 0 


force_sig_info() 确 信 进 程 不 忽略 或 阻 赛 SIGSEGV 信 号 , 并 通过 info 局 部 变量 传递 
附加 信息 的 同时 把 该 信号 发 送 给 用 户 态 进程 (参见 第 十 一 章 “ 产 生 信 和 号 ”一 市 )。 
info.si_code 字 段 已 被 置 为 SEGV_MAPERR (如 果 异 常 是 由 于 一 个 不 存在 的 页 框 引 起 )， 
或 置 为 SEGV_ACCERR【〈 如 果 蜡 常 是 由 于 对 现 有 页 框 的 无 效 访问 引起 ) 。 


如 果 异 常 发 生 在 内 核 态 (error_code 的 第 2 位 被 清 0), 仍然 有 两 种 可 选 的 情况 : 


。 ”异常 的 3 引起 是 由 于 把 某 个 线性 地 址 作为 系统 调用 的 参数 传递 给 内 核 。 
。 ”异常 是 因 一 个 真正 的 内 核 缺 陷 所 引起 的 。 


国 数 这 样 区 分 这 两 种 可 选 的 情况 : 


No_context: 

if ((fixup = search exception_ table(lregs->eip})} != 0) ({ 
regs->elip = fixup; 
return; 


} 


在 第 一 种 情况 中 ,代码 跳 到 一 7 段 “修正 代码 ”处 , 这 段 代 码 的 典型 操作 就 是 向 当前 进程 
发 送 SIGSEGV 信号 ,或 用 一 个 适当 的 出 错 码 终止 系统 调用 处 理 程序 (参见 第 十 童 中 的 
“动态 地 址 检查 : 修正 代码 ”一 市 )。 


在 第 二 种 情况 中 , 函数 把 CPU 寄 存 器 和 内 核 态 堆栈 的 全 部 转 储 打印 到 控制 台 , 并 输出 到 
一 个 系统 消息 缓冲 区 ， 然 后 调用 函数 do_exit () 杀 死 当前 进程 (参见 第 二 十 章 )。 这 就 
是 所 谓 按 所 显示 的 消息 命名 的 “内 核 漏 润 (Kernel oops) ”错误 。 这 些 输出 值 可 由 内 核 
编程 高 手 用 于 推测 引发 此 错误 的 条 件 ， 进 而 发 现 并 纠正 错误 。 


处 理 地 址 空间 内 的 错误 地 址 
如 果 aGar 地 址 属于 进程 的 地 址 空间 , 则 do_page_fault () 转 到 good_area 标 记 处 的 语句 执行 : 


good_ area: 
info.si_code = SEGV_ACCERR: 


write = 0; 
if {error_ code & 2) { /* write access */ 
If {!(vma->vm flags & VM_ WRITE)) 
goto bad_ area;: 
WIrlite+t++; 
} else /* read access */ 
If ({error code & 1})} || !{(vma->yvm_flags & (VM_READ | VM EXEC) ) ) 


goto bad area; 


如 果 异 常 由 写 访 I6] 引 起 ， 晴 数 检 查 这 个 线性 区 是 否 可 写 。 如 果 不 可 写 ， 跳 到 badq_area 
代码 处 ， 如 果 可 写 ， 把 write 局 部 变量 置 为 1。 
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如 果 异 常 由 读 或 执行 访问 引起 ， 函 数 检 查 这 一 页 是 否 已 经 存在 于 RAM 中 。 在 存在 的 情 
况 下 ， 异 常 发 生 是 由 于 进程 试图 访 同 用 户 态 下 的 一 个 有 特权 的 页 框 (页 框 的 User/ 
Supervisor 标 志 被 清除 ), 因此 哺 数 跳 到 bad_area 代 人 码 处 ( 注 7)。 在 不 存在 的 情况 下 ， 
国 数 还 将 检查 这 个 线性 区 是 否 可 读 或 可 执行 。 


如 果 这 个 线性 区 的 访问 权限 与 引起 异常 的 访问 类 型 相 匹 配 , 则 调用 handle_mm_fault () 
图 数 分 配 一 个 新 的 页 框 : 


SUTrVLVe : 

ret = handle mm fault (tsk->mm, vma, address, write),; 

if (ret == VM_FAULT MINOR || ret == VM_FAULT MAJOR) { 
if (ret == VM FAULT_ MINOR}) tsk->min_flt++; else tsk->ma]j_flt++; 
up_readt&tsk->mm->mmap_SsSem);} 
return; 


} 


如 果 handle_mm_fault () 困 数 成 功 地 给 进程 分 配 一 个 页 框 , 则 返回 VM-FAULT-MINOR 或 
VM-FAULT-MAJOR。 值 VM-FAULT-MINOR 表 示 在 没有 阻塞 当前 进程 的 情况 下 处 理 了 缺 页 ， 
这 种 缺 页 叫做 次 缺 页 (minor fault)。 值 VM-FAULT-MAJOR 表示 缺 页 迫使 当前 进程 睡 
眠 (很 可 能 是 由 于 当 用 磁盘 上 的 数据 填充 所 分 配 的 页 框 时 花费 时 间 )， 阻塞 当前 进程 的 
缺 页 就 叫做 主 缺 页 (major fault)。 遇 数 也 返回 VM-FAULT-OOM (没有 足够 的 内 存 ) 或 
VM-FAULT-STGBOS (其 他 任何 错误 ) 。 


如 果 hanaqle_mm_fault() 返 回 值 VM_FAULT_SIGBUS ， 则 癌 进 程 发 送 SIGBUS 信号 : 


1f (ret == VM FAULT_ SIGBUS) ( 

do_sigbus: 
up_read(g&tsk->mm->mmap_ sem) : 
if (terror_ code & 4)) /* 内 核 态 */ 

goto no_context; 

tsk->thread.cr2?2 = address; 
tsk->thread.error_code = error code: 
tsk->thread.trap_no = 14; 
info.si_signo = SIGBUS; 


info.si_errno = 0; 
info.si_code = BUS_ ADRERR:; 
info.si addr = (void *) address; 


force sig_info(SIGBUS, &info, tsk); 
} 


如 果 handle_mm_fault () 不 分 配 新 的 页 框 ， 就 返回 值 VM_FAULT_O0M， 此 时 内 核 通 常 杀 
死 当前 进程 。 不 过 , 如 果 当 前 进程 是 init 进 程 , 则 只 是 把 它 放 在 运行 队列 的 末尾 并 调用 
调度 程序 ; 一旦 init 恢复 执行 ， 则 handle_mm_fault() 又 执行 : 





注 7: 然而 ， 这 种 情况 从 不 会 发 生 ， 因 为 内 核 不 会 把 具有 特权 的 页 框 赋 给 进程 。 
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if (ret == VM_FAULT_OOM) { 

Out_of memory : 
up_read(&tsk->mm->mmap_ sem); 
If (tsk->piqd != 1) 1 

If (error code & 4) /* User Mode */ 
do_exit (SIGKILL):; 
goto no_context; 
} 
ylield(),; 
down_read(&tsk->mm->mmap_sem}; 
gOoto survive; 


} 


handle_mm fault () 冰 数 作 用 于 4 个 参数 . 


Mm 


指向 异常 发 生 时 正在 CPU 上 运行 的 进程 的 内 存 描述 符 。 


指向 引起 异常 的 线性 地 址 所 在 线性 区 的 描述 符 。 


address 


引起 异常 的 线性 地 址 。 


write access 


如 果 tsk 试 图 向 addGress 写 ， 则 置 为 1， 如 果 tsk 试 图 在 address 读 或 执行 ， 则 置 
为 0。 


这 个 函数 首先 检查 用 来 映射 address 的 页 中 间 目 录 和 页 表 是 否 存 在 。 即 使 address 属 于 
进程 的 地 址 空间 ， 相 应 的 页 表 也 可 能 还 没有 被 分 配 , 因此 , 在 做 别 的 事情 之 前 首先 执行 
分 配 页 目录 和 页 表 的 任务 : 


pgd = pgd_offset (mm, address)}):; 
spin_lock (&mm->page table lock),; 
Pud = pud_alloc{(mm, pgd, address),， 


If (pud) { 
pmd = pmd_alloc{(mm, pud, address); 
If (pmd) { 
pte = pte_alloc map(mm, pmd, address}; 
if (pte) 


return handle pte_fault (mm, vma, address, 
write access, pte, pmd)}),; 
} 
) 
spin unlock (gmm->page table_ lock): 
return VM FAUL'T OOM; 


pgd 局 部 变量 包含 引用 address 的 页 全 局 目录 项 。 如 果 需 要 的 话 , 调用 pud_alloc() 和 
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pm9_alloc() 函 数 分 别 分 配 一 个 新 的 页 上 级 目录 和 页 中 间 目 录 ( 注 8)。 然 后 ， 如 果 需 要 
的 话 , 调用 pte_alloc_map() 函 数 分 配 一 个 新 的 页 表 。 如 果 这 两 步 都 成 功 , pte 局 部 变 
量 所 指向 的 页 表 项 就 是 引用 address 的 表 项 。 然 后 调用 handle_pte_fault () 国 数 检 查 
adqress 地 址 所 对 应 的 页 表 项 ， 并 决定 如 何 为 进程 分 配 一 个 新 页 框 : 


。 ”如 果 被 访问 的 页 不 存在 ,也 就 是 说 ,这 个 页 还 没有 被 存放 在 任何 一 个 页 框 中 ,那么 ， 
内 核 分 配 一 个 新 的 页 框 并 适当 地 初始 化 。 这 种 技术 称 为 请 求 调 页 (demand 
paging ) 。 


。 ”如 果 被 访问 的 页 存在 但 是 标记 为 只 读 , 也 就 是 说 , 它 已 经 被 存放 在 一 个 页 框 中 , 那 
么 ,内核 分 配 一 个 新 的 页 框 ， 并 把 旧 页 框 的 数据 拷贝 到 新 页 框 来 初始 化 它 的 内 容 。 
这 种 技术 称 为 写 时 复制 (Copy On Wrire，COW)。 


请 求 调 页 
术语 “请 求 调 页 ” 指 的 是 一 种 动态 内 存 分 配 技术 ， 它 把 页 框 的 分 配 推迟 到 不 能 再 推迟 为 
止 , 也 就 是 说 , 一 直 推 迟到 进程 要 访问 的 页 不 在 RAM 中 时 为 止 , 由 此 引起 一 个 缺 页 异常 。 


请 求 调 页 技术 背后 的 动机 是 : 进程 开始 运行 的 时 候 并 不 访问 其 地 址 空间 中 的 全 部 地 址 ， 
事实 上 ， 有 一 部 分 地 址 也 许 永远 不 被 进程 使 用 。 此 外 ,程序 的 局 部 性 原理 (参见 第 二 章 
中 的 “硬件 高 速 缓存 ”一 节 ) 保证 了 在 程序 执行 的 每 个 阶段 ， 真正 引用 的 进程 页 只 有 一 
小 部 分 ,因此 临时 用 不 着 的 页 所 在 的 页 框 可 以 由 其 他 进程 来 使 用 。 因 此 ， 对 于 全 局 分 配 
(一 开始 就 给 进程 分 配 所 需要 的 全 部 页 框 ， 直 到 程序 结束 才 释 放 这 些 页 框 ) 来 说 ， 请 求 
调 页 是 首选 的 ， 因 为 它 增加 了 系统 中 的 空闲 页 框 的 平均 数 ， 从 而 更 好 地 利用 空闲 内 存 。 
从 另 一 个 观点 来 看 ， 在 RAM 总 数 保持 不 变 的 情况 下 ， 请 求 调 页 从 总 体 上 能 使 系统 有 更 
大 的 否 吐 量 。 


为 这 一 切 优点 付出 的 代价 是 系统 额外 的 开销 : 由 请 求 调 页 所 引发 的 每 个 “ 缺 页 ”异常 必 
须 由 内 核 处 理 , 这 将 浪费 CPU 的 时 钟 周 期 。 幸运 的 是 , 局 部 性 原理 保证 了 一 旦 进程 开始 
在 一 组 页 上 运行 ,在 接 下 来 相当 长 的 一 段 时 间 内 它 会 一 直 停 留 在 这 些 页 上 而 不 去 访问 其 
他 的 页 ， 这 样 我 们 就 可 以 认为 “ 缺 页 ”异常 是 一 种 稀有 事件 。 


被 访问 的 页 可 能 不 在 主 存 中 , 其 原因 或 者 是 进程 从 没 访问 过 该 页 ,或 者 是 内 核 已 经 回收 
了 相应 的 页 框 〈 参 见 第 十 七 章 )。 








注 8: 在 80x86 微 处 理 器 中 ， 这 种 分 配 永 远 不 会 发 生 ， 因 为 页 上 级 目录 总 是 包含 在 页 全 局 目录 
中 , 并 且 页 中 间 目 录 或 者 包含 在 页 上 级 目录 中 (PAE 示 激活 ) ,或 者 与 页 上 级 目录 一 块 被 
分 配 (PAE 被 激活 )。 
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在 这 两 种 情况 下 , 缺 页 处 理 程序 必须 为 进程 分 配 新 的 页 框 。 不 过 ， 如 何 初 始 化 这 个 页 框 
取决 于 是 哪 一 种 页 以 及 页 以 前 是 否 刻 进程 访问 过 。 特 殊 情 况 下 : 


1. 或 者 这 个 页 从 未 馈 进 程 访问 到 且 没 有 映射 磁盘 文件 ,或 者 页 映射 了 磁盘 文件 。 内核 
能 够 识别 这 些 情况 , 这 是 因为 页 表 相 应 的 表 项 被 填充 为 0, 也 就 是 说 , pte_none 宏 
返回 1。 


2. 页 属于 非 线 性 磁盘 文件 的 映射 (参见 第 十 六 章 “ 非 线性 内 存 映 射 ”一 节 )。 内 核能 
够 识别 这 种 情况 ， 因 为 Present 标志 被 清 0 而 且 Dirty 标志 被 置 1]， 也 就 是 说 ， 
pte_file 宏 返回 1。 


3. 进程 已 经 访问 过 这 个 页 ， 但 是 其 内 容 被 临时 保存 在 磁盘 上 。 内 核能 够 识别 这 种 情 
况 ， 这 是 因为 相应 表 项 设 被 填充 为 0， 但 是 Present 和 Dirty 标志 被 清 0。 


因此 ,handaqle_pte_fault() 国 数 通过 检查 adqdqress 对 应 的 页 表 项 能 够 区 分 这 三 种 情况 : 


entry = *pte; 
if (!'pte present (entry}) 1 
if (pte_none (entry)) 
return do_no page (mm, vma, address, write access, pte, pmd): 
If {pte_file(lentry)})) 
return do_file page(mm, vma, address, write access, pte, pmad).; 
return do_swap_page (mm, vma, address, pte, pmd, entry, write_access), 


} 
我 们 将 在 第 十 六 章 和 第 十 七 章 分 别 讨论 第 2 和 第 3 种 情况 。 


在 第 1 种 情况 下 , 当 页 从 未 被 访问 或 页 线性 地 映射 磁盘 文件 时 则 调用 do_no_page(O 国 数 。 
有 两 种 方法 装 人 所 缺 的 页 , 这 取决 于 这 个 页 是 否 被 映射 到 一 个 磁盘 文件 。 该 函数 通过 检 
查 vma 线性 区 描述 符 的 nopage 字 段 来 确定 这 一 点 ， 如果 页 被 映射 到 一 个 文件 , nopage 
字段 就 指向 一 个 函数 ， 该 函数 把 所 缺 的 页 从 磁盘 装 入 到 RAM。 因 此 ， 可 能 的 情况 是 : 


。 vma->vm_ops->nopage 字 段 不 为 NULL。 在 这 种 情况 下 , 线性 区 映射 了 一 个 磁盘 文 
件 ，nopage 字 段 指 同 装 入 页 的 函数 。 这 种 情况 将 在 第 十 六 章 的 “内 存 映射 的 请 求 
调 页 ”一 节 和 第 十 九 章 的 “IPC 共享 内 存 ” 一 节 进 行 阐述 。 

. 或 者 vma->vm_ops 字 段 为 NULL, 或 者 vma->vm_ops->nopage 字 段 为 NULL。 在 这 
种 情况 下 , 线性 区 没有 映射 磁盘 文件 ， 也 就 是 说 ， 它 是 一 个 匿名 映射 (anonymous 
mapping )。 因 此 ，do_no_page() 调 用 qdo_anonymous_page() 国 数 获 得 一 个 新 的 
页 框 : 
if (!vma->vm_ ops |1| IIvma->vm_ ops->nopage) 


return ace_ancnyrous_page (mn，vna，Ppage_rable，Pma， 
write_access，adqdqress) ; 
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do_anocnymous_page() 国 数 ( 注 9) 分 别处 理 写 请 求 和 读 请 求 : 


if (write access}) { 
pte_unmap (page. table}):; 
spin_unlock (&mm->page._ table_lock)}; 
page = alloc page(GFP_HIGHUSER | _ _GFP_ZERO) ; 
spin_lock(&mm->page_table_lock).; 
page_table = pte_offset_map (pmd, addr)}).; 
mm->rss++; 
entry = maybe_mkwrite (pte_mkdirty (mk_pte (page, 

vma->Vvm_page_prot}), vma}); 

lru cache add active (page).; 
SetPageReferenced (page}; 
set_pte(page_table, entry); 
Pte_unmap (page_table);} 
spin_unlock(&mm->page_table_lock); 
return VM FAULT MINOR; 

} 


pte_unmap 宏 的 第 一 次 执行 释放 一 种 临时 内 核 映射 , 它 映射 了 在 调用 handle_pte_fault () 
函数 之 前 由 pte_offset_map 所 建立 页 表 项 的 高 端 内 存 物 理 地 址 (参见 第 二 章 “ 页 表 处 理 ” 
一 节 中 的 表 2-7)。pte_offset_map 和 pte_unmap 这 对 宏 获 取 和 释放 同一 个 临时 内 核 映 
射 。 临 时 内 核 映 射 必 须 在 调用 alloc_page() 之 前 释放 ， 因 为 这 个 函数 可 能 阻塞 当前 进 
程 。 


函数 递增 内 存 描述 符 的 rss 字 段 以 记录 分 配给 进程 的 页 框 总 数 。 相 应 的 页 表 项 设置 为 页 
框 的 物理 地 址 ， 页 表 杠 被 标记 为 既 胜 又 可 写 的 (和 广 10)。1ru_cache_aqdq_active() 国 
数 把 新 页 框 插 入 与 交换 相关 的 数据 结构 中 ， 我 们 在 第 十 七 章 对 它 进行 说 明 。 


相反 ， 当 处 理 读 访 问 时 ， 页 的 内 容 是 无 关 紧 要 的 ， 因 为 进程 第 一 次 对 它 访问 。 给 进程 一 
个 填充 为 0 的 页 要 比 给 它 一 个 由 其 他 进程 填充 了 信息 的 上 归 页 更 为 安全 。Linux 在 请 求 调 
页 方面 做 得 更 深 入 一 些 。 没 有 必要 立即 给 进程 分 配 一 个 填充 为 0 的 新 页 框 ， 由 于 我 们 也 
可 以 给 它 一 个 现 有 的 称 为 零 页 (zero page) 的 页 , 这 样 可 以 进一步 推迟 页 框 的 分 配 。 零 
页 在 内 核 初始 化 期 间 被 静态 分 配 ， 并 存放 在 empty_zero_page 变量 中 (长 为 4096 字 节 
的 数组 ， 并 用 0 填充 )。 


因此 用 零 页 的 物理 地 址 设置 页 表 项 :; 





注 9: 为 了 简化 对 这 个 函数 的 说 明 ,， 我 们 略 过 处 理 反 映射 的 语句 ， 有 关 反 映射 的 内 容 见 第 十 七 
章 “ 反 向 映射 ”一 节 。 

注 10: 如 果 调 试 程 序 试 图 往 被 跟踪 进程 只 读 线 性 区 中 的 页 中 写 数 据 , 内 核 就 不 设置 Read/Nrite 
标志 。 通 数 maybe_mkwrite() 处 理 这 种 特殊 情况 ， 
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entry = pte_wrprotect (mk pte({virt_to_ page (empty_zero_page), 
yma->yvm page prot))}).:; 

set_pte(page_ table, entry).; 

spin_unlock(&mm->page_table_lock}; 

return VM FAULT MINOR : 


由 于 这 个 页 被 标记 为 不 可 写 的 ， 因 此 如 果 进 程 试 图 写 这 个 页 ， 则 写 时 复制 机 制 被 激 藻 。 


当 且 仅 当 在 这 个 时 候 , 进程 才 获得 一 个 属于 自己 的 页 并 对 它 进 行 写 操作 。 这 种 机 制 将 在 
下 一 节 中 进行 描述 。 


写 时 复制 
第 一 代 Unix 系统 实现 了 一 种 傻瓜 式 的 进程 创建 ， 当 发 出 fork() 系统 调用 时 ,内核 原样 
复制 父 进 程 的 整个 地 址 空间 并 把 复制 的 那 一 份 分 配给 子 进程 。 这 种 行为 是 非常 耗 时 的 ， 
因为 它 需 要 


。 ”为 子 进程 的 页 表 分 配 页 框 

。 ”为 子 进程 的 页 分 配 页 框 

。 ”初始 化 子 进程 的 页 表 

。 ”把 父 进程 的 页 复制 到 子 进程 相应 的 页 中 


这 种 创建 地 址 空间 的 方法 涉及 许多 内 存 访问 , 消耗 许多 CPU 周期 , 并 且 完 全 破坏 了 高 速 
缓存 中 的 内 容 。 在 大 多 数 情况 下 ,这样 做 常常 是 毫 无 意义 的 , 因为 许多 子 进程 通过 次 入 
一 个 新 的 程序 开始 它们 的 执行 , 这 样 就 完全 丢弃 了 所 继承 的 地 址 空间 (参见 第 二 十 章 )。 


现在 的 Unix 内 核 (包括 Linux) 采用 一 种 更 为 有 效 的 方法 ， 称 之 为 写 时 复制 (Copy On 
Write，COW)。 这 种 思想 相当 简单 : 父 进 程 和 子 进 程 共享 页 框 而 不 是 复制 页 框 。 然 而 ， 
只 要 页 框 被 共享 , 它们 就 不 能 被 修改 。 无论 父 进程 还 是 子 进程 何 时 试图 写 一 个 共享 的 页 
框 ， 就 产生 一 个 异常 ,这 时 内 核 就 把 这 个 页 复制 到 一 个 新 的 页 框 中 并 标记 为 可 写 。 原 来 
的 页 框 仍然 是 写 保 护 的 : 当 其 他 进程 试图 写 人 时 , 内 核 检查 写 进程 是 否 是 这 个 页 框 的 唯 
一 属 主 ， 如 有 果 是 ， 就 把 这 个 页 框 标记 为 对 这 个 进程 是 可 写 的 。 


页 描述 符 的 _count 字段 用 于 跟踪 共享 相应 页 框 的 进程 数目 。 只 要 进程 释放 一 个 页 框 或 
者 在 它 上 面 执行 写 时 复制 ， 它 的 _count 字段 就 减 小 ， 只 有 当 _count 变 为 -1 时 ,这 个 
页 框 才 被 释放 (参见 第 八 章 “页 描述 符 ” 一 市 ) 


现在 我 们 讲述 Linux 怎样 实现 写 时 复制 。 当 handle_pte_fault () 确 定 缺 页 异常 是 由 访 
问 内 存 中 现 有 的 一 个 页 而 引起 时 ， 它 执行 以 下 指令 : 


if (pte present (entry)) { 
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if (write_access) ( 
If (ipte write(lentry)) 
return do _ wp page (mm, vma, address, pte, pmd, entry),; 
entry = pte_ mkdirty (entry); 
} 
entry = pte mkyoung (entry)}); 
set_ pte(pte, entry); 
flush_tlb page (vma, address}):;} 
pte_unmap (pte); 
spin unlock{&mm->page, table lock),; 
return VM_ FAULT MINOR; 
} 


handle_pte_fault () 国 数 是 与 体系 结构 无 关 的 : 它 考 虑 任何 违背 页 访问 权限 的 可 能 。 然 
而 , 在 80x86 体 系 结构 上 ， 如 果 页 是 存在 的 那么， 访问 权限 是 写 人 允许 的 而 页 框 是 写 保 
护 的 (参见 前 面 “处理 地 址 空间 内 的 错误 地 址 ”一 节 ) 。 因 此 , 总 是 要 调用 do_wp_page () 
国 数 。 


do_wp_page() 函 数 ( 注 11) 首先 获取 与 缺 页 异常 相关 的 页 框 描述 符 〈 缺 页 表 项 对 应 的 
页 框 )。 接 下 来 ， 函 数 确 定 页 的 复制 是 否 真 正 必 要 。 如 果 仅 有 一 个 进程 拥有 这 个 页 ， 那 
么 ， 写 时 复制 就 不 必 应 用 ， 且 该 进程 应 当 上 自由 地 写 该 页 。 具 体 来 说 ,函数 读 取 页 描述 符 
的 _count 字段 : 如 果 它 等 于 0 (只 有 一 个 所 有 者 ) ， 写 时 复制 就 不 必 进 行 。 实 际 上 ， 检 
查 要 稍微 复杂 些 , 因为 当 页 插入 到 交换 高 速 缓存 (参见 第 十 七 章 “ 交 换 高 速 缓存 ”一 节 ) 
并 且 当 设置 了 页 描述 符 的 PG_private 标 志 时 ，_count 字 段 也 增加 。 不 过 ， 当 写 时 复制 
不 进行 时 ， 就 把 该 页 框 标记 为 可 写 的 ， 以 免试 图 写 时 引起 进一步 的 缺 页 异常 : 

set_pte{page _ table, maybe_mkwrite(pte_mkyoung (pte_mkdirty (pte})),vma)); 

flush_tlb page(vma, address),; 

pte_unmap (page_table); 


spin_unlock(&mm->page_table_ lock); 
return VM FAULT MINOR; 


如 果 两 个 或 多 个 进程 通过 写 时 复制 共享 页 框 , 那么 函数 就 把 旧 页 框 (ola_page) 的 内 容 复 
制 到 新 分 配 的 页 框 (new_page) 中 ,为 了 避免 竞争 条 件 , 在 开始 复制 操作 前 调用 get_page () 
把 ola_page 的 使 用 计数 加 1. 


old _ page = pte_page(Ptel) ; 
pte_unmap (Page_table) 
Get_page(olad_page) : 
spin _ unlock(&mm->page_rtable_lock) : 
if (olqd page == VLITL_ LO_page (empty_zero page)) 
new page = alloc page (GFP_HIGHUSER | GFP_ZERO); 


i 








注 11: 为 了 简化 对 这 个 函数 的 说 明 , 我 们 略 过 处 理 反 映射 的 语句 ， 有 关 反 映射 的 内 容 见 第 十 七 
章 “ 反 向 映射 ”一 节 。 
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} else { 
new_page = alloc page (GFP_ HIGHUSER):; 
vfrom = kmap_atomic(old page, KM USERO) 
vto = kmap._atomic (new,_ page, KM USER1) ; 
Copy._page (vto, vfrom).; 
kunmap_atomicl(lvfrom, KM USERO).; 
kunmap_atomic (vto, KM USERO) ; 

} 


如 朵 旧 页 框 是 零 页 ， 就 在 分 配 新 的 页 框 时 (__GFP_ZERO 标 志 ) 把 它 填充 为 0。 否则 ,使 
用 copy_page() 宏 复制 页 框 的 内 容 。 不 要 求 一 定 要 对 零 页 做 特殊 的 处 理 ， 但 是 特殊 处 理 
确实 能 够 提高 系统 的 性 能 ， 因 为 它 减 少 地址 引用 而 保护 了 微 处 理 器 的 硬件 高 速 缓存 。 


因为 页 框 的 分 配 可 能 阻塞 进程 , 因此 , 峭 数 检查 自从 函数 开始 执行 以 来 是 否 已 经 修改 了 
页 表 项 (pte 和 *page_table 具 有 不 同 的 值 ) 。 如 果 是 ， 新 的 页 框 被 释放 ，oldq_page 的 
使 用 计数 器 被 减少 (取消 以 前 的 增加 ) ， 国 数 结束 。 


如 果 所 有 的 事情 看 起 来 进展 顺利 ， 那么, 新 页 框 的 物理 地 址 最 终 被 写 进 页 表 项 , 且 使 相 
应 的 TLB 寄存 器 无 效 : 

spin_lock(&mm->page_table_ lock); 

entry = maybe_ mkwrite(pte mkdirty (mk_pte (new_page, 

vma->vm page_ prot))}),vma).; 

set_pte{page_table, entry)}); 

flush tlb page (vma, address)}); 

lru_cache_add active (new page}; 

pte_unmap (Page table}: 

spin unlock(&mm->page_ table_lock}):; 


lru_cache_adqd_active() 函 数 把 新 页 框 插 入 到 与 交换 相关 的 数据 结构 中 ; 参见 第 十 七 
章 对 其 的 描述 。 


最 后 ，do_wp_page() 把 olqd_page 的 使 用 计数 器 减少 两 次 。 第 一 次 的 减少 是 取消 复制 页 
框 内 容 之 前 进行 的 安全 性 增加 ;第 二 次 的 减少 是 反映 当前 进程 不 再 拥有 该 页 框 这 一 事实 。 


处 理 非 连 续 内 存 区 访问 


我 们 已 经 在 第 八 章 “ 非 连 续 内 存 区 管理 ” 一 节 中 看 到 ， 内核 在 更 新 非 连 续 内 存 区 对 应 的 
页 表 项 时 是 非常 懒惰 的 。 事 实 上 ，vmalloc() 和 vtree() 国 数 只 把 自己 限制 在 更 新 主 内 
核 页 表 《〈 即 页 全 局 目录 init_mm.pgd 和 它 的 子 页 表 )。 


然而 , 一 旦 内 核 初始 化 阶段 结束 , 任何 进程 或 内 核 线程 便 都 不 直接 使 用 主 内 核 页 表 。 因 
此 , 我 们 来 考虑 内 核 态 进程 对 非 连续 内 存 区 的 第 一 次 访问 。 当 把 线性 地 址 转换 为 物理 地 
址 时 ，CPU 的 内 存 管理 单元 遇 到 空 的 页 表 项 并 产生 一 个 缺 页 。 但 是 , 缺 页 异常 处 理 程序 
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认识 这 种 特殊 情况 ， 因 为 异常 发 生 在 内 核 态 且 产 生 缺 页 的 线性 地 址 大 于 TASK_SIZE。 
因此 ，do_page_fault () 检 查 相 应 的 主 内 核 页 表 项 : 


vmalloc_fault: 
Aasm("movl %®%®cr3,%0":"=r" (pgd paddr}).; 
pgd = pg index(address) + (pgd t *) _ _val{lpgd paddr)},， 
pgd_k = init_mm.pgd + pgd_index (address).; 
if {i!ipgd present (*pgd_Kk)})) 
Ggoto no_context; 
pud = pud offset (pgd, address); 
pud_k = pud.offset (pgd _k, address):; 
If (ipud present (*pud_k)) 
goto no_context,; 
pmd = pmd_ offset (pud, address); 
pmd_k = pmd_ offset (pud_k, address):;: 
If (!pmd present (*pmd_k)) 
goto no_context,; 
set_pmd (pmd, *pmqd_k}.; 
pte_k = pte offset kernel (pmd k, address)},; 
if (pe present (*pte_k)) 
goto no_context;:} 
return; 


把 存放 在 cr3 寄存 器 中 的 当前 进程 页 全 局 目录 的 物理 地 址 赋 给 局 部 变量 pgd_padgr 
( 注 12)， 把 与 pga_paadqr 相应 的 线性 地 址 赋 给 局 部 变量 pga， 并 且 把 主 内 核 页 全 局 目录 
的 线性 地 址 赋 给 pga_k 局 部 变量 。 


如 果 产 生 缺 页 的 线性 地 址 所 对 应 的 主 内 核 页 全 局 目录 项 为 空 ， 则 函数 跳 到 标号 为 
no_context 的 代码 处 《参见 前 面 “ 处 理 地 址 空间 以 外 的 错误 地 址 ”一 节 ) 。 人 否则 ， 函 数 检 
查 与 错误 线性 地 址 相对 应 的 主 内核 页 上 级 目录 项 和 主 内 核 页 中 间 目 录 项 。 如 果 它 们 中 有 一 
个 为 空 ， 就 再 次 跳 转 到 no_context 标记 处 。 否 则 ， 就 把 主 目录 项 复制 到 进程 页 中 间 目 录 
的 相应 项 中 ( 注 13)。 随 后 对 主页 表 项 重复 上 述 整 个 操作 。 


创建 和 删除 进程 的 地 址 空间 


除了 “进程 的 地 址 空间 ”这 一 市 所 提 到 的 进程 获得 一 个 新 的 线性 区 的 六 种 典型 的 情况 之 


注 12: 内 核 不 使 用 currenc->mm-pgdq 导 出 当前 进程 的 页 全 局 目录 地 址 ,因为 这 种 缺 页 可 能 在 
任何 时 刻 都 发 生 ， 黄 至 在 进程 切换 期 间 发 生 。 

注 13: 你 也 许 还 记得 在 第 二 章 “Linux 中 的 分 页 ”一 节 中 的 内 容 : 如 果 PAE 被 激活 ， 页 上 级 目 
录 项 就 不 可 能 为 空 ; 如 果 没 有 激活 PAE， 设 置 页 中 间 目 录 项 的 同时 也 就 隐 金 设置 了 页 上 
级 目录 项 ，。 
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外 ,首先 要 指出 的 是 fork() 系统 调用 要 求 为 子 进程 创建 一 个 完整 的 新 地 址 空间 。 相 反 ， 
当 进 程 结束 上 时， 内核 撤 消 它 的 地 址 空间 。 这 一 市 我 们 讨论 Linux 如 何 执行 这 两 种 操作 。 


创建 进程 的 地 址 空间 
我 们 在 第 三 童 的 “clone()、fork() 及 vfork() 系 统 调 用 ”一 节 中 已 经 提 到 ， 当 创建 一 
个 新 的 进程 时 内 核 调用 ccopy_mm() 国 数 。 这 个 图 数 通过 建立 新 进程 的 所 有 页 表 和 内 存 摘 
述 符 来 创建 进程 的 地 址 空间 。 


通常 ,每 个 进程 都 有 自己 的 地 址 空间 , 但 是 轻 量 级 进程 可 以 通过 调用 clone() 消 数 〈( 设 
置 了 CLONE_VM 标 志 ) 来 创建 。 这 些 轻 量 级 进程 共享 同一 地 址 空间 ， 也 就 是 说 ， 人 允许 它 
们 对 同一 组 页 进行 寻 址 。 


按照 前 面 讲述 的 写 时 复制 方法 ， 传 统 的 进程 继承 父 进程 的 地 址 空间 ， 只 要 页 和 是 只 读 的 ， 
就 依然 共享 它们 。 当 其 中 的 一 个 进程 试图 对 某 个 页 进行 写 时 , 这 个 页 就 被 复制 一 份 。 一 
段 时 间 之 后 , 所 创建 的 进程 通常 获得 与 父 进程 不 一 样 的 完全 属于 自己 的 地 址 空间 。 男 一 
方面 ， 轻 量 级 的 进程 使 用 父 进程 的 地 址 空间 。Linux 实现 轻 量 级 进程 很 简单 ， 即 不 复制 
父 进程 地 址 空间 。 创建 轻 量 级 的 进程 比 创 建 普通 进程 相应 要 快 得 多 , 而 且 只 要 父 进 程 和 
子 进程 谨慎 地 协调 它们 的 访问 ， 就 可 以 认为 页 的 共享 是 有 益 的 。 


如 果 通 过 cl1one () 系统 调用 已 经 创建 了 新 进程 ， 并 且 flag 参数 的 CLONE_VM 标志 被 
设置 ， 则 copy_mm() 久 数 把 父 进 程 (current) 地 址 空间 给 子 进程 (tsk): 
If (clone flags & CLONE VM) { 
atomic_inc{(&current->mm->mm usSers}; 
spin_unlock wait (kcurrent ->mm->page table lock); 
tsk->mm = Current ->mm; 
tsk->active mm = current->mm; 


return 0: 


} 


如 果 其 他 CPU 持 有 进程 页 表 自 旋 锁 , 就 调用 spin_unlock_waitkt () 国 数 保 证 在 释放 刍 之 
前 ， 缺 页 处 理 程序 不 会 结束 。 实 际 上 ， 这 个 自 旋 锁 除 了 保护 页 表 以 外 ,还 必须 禁止 创建 
新 的 轻 量 级 进程 ， 因 为 它 共 享 current->mm 描 述 符 。 


如 果 没 有 设置 CLONE_VM 标 志 ，copy_mm() 销 数 就 必须 创建 一 个 新 的 地 址 空间 (在 进程 
请 求 一 个 地 址 之 前 ， 即 使 在 地 址 空间 内 没有 分 配 内 存 )。 这 个 国 数 分 配 一 个 新 的 内 存 摘 
述 符 ,把 它 的 地 址 存放 在 新 进程 描述 符 tsk 的 mm 字段 中 ， 并 把 current->mm 的 内 容 复 
制 到 tsk->mm 中 。 然 后 改变 新 进程 描述 符 的 一 些 字段 : 


tsk->mm = kmem cache alloc(mm cachep, SLAB_ KERNEL}.; 
memcpy (tsk->mm, current->mm, Sizeof {(*tsk->mm)}}.; 
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atomic set(&tsk->mm->mm users, 1); 

atomic_set(&tsk->mm->mm count, 1}); 

init_rwsem{&tsk->mm->mmap_sem).; 

tsk->mm->core_ waiters = 0,， 

tsk->mm->page_table_lock = SPIN_ LOCK UNLOCKED:; 

tsk->mm->ioctx_list_ lock = RW_LOCK_ UNLOCKED:; 

tsk->mm->ioctx_list = NULL; 

tsk->mm->default kioctx = INIT KIOCTX (tsk->mm->default kioctx, 
*tSsk->mm): 

tsk->mm->free area cache = (TASK_SIZE/3+0xfff)&Oxfffff000; 

tsk->mm->pga = pgd. alloc{tsk->mm); 

tsk->mm->def flags = 0; 


回想 一 下 ，pgd_alloc() 宏 为 新 进程 分 配 页 全 局 目录 。 


然后 调用 依赖 于 体系 结构 的 init_new_context () 国 数 : 对 于 80x86 处 理 器 ,该 函数 检 
查 当 前 进程 是 否 拥 有 定制 的 局 部 描述 符 表 ， 如 果 是 ，init_new_context () 复 制 一 份 
current 的 局 部 的 述 符 表 并 把 它 插入 csk 的 地 址 空间 。 


最 后 ,调用 dup_mmap{) 国 数 既 复制 父 进程 的 线性 区 ,也 复制 父 进程 的 页 表 。dup_mmap () 
国 数 把 新 内 存 描述 符 tsk->mm 插 入 到 内 存 描述 符 的 全 局 链表 中 ， 然 后 ， 从 current->mm- 
>rmap 所 指向 的 线性 区 开始 扫描 父 进程 的 线性 区 链表 。 它 复制 遇 到 的 每 个 vm_area_struct 
线性 区 描述 符 ， 并 把 复制 品 插入 到 子 进 程 的 线性 区 链表 和 红 一 黑 树 中 。 


在 插入 一 个 新 的 线性 区 描述 符 之 后 ， 如 果 需 要 的 话 ， aup_mmap() 立 即 调用 
copy_page_range() 创 建 必 要 的 页 表 来 映射 这 个 线性 区 所 包含 的 一 组 页 ,并且 初始 化 新 页 
表 的 表 项 。 尤 其 是 ， 与 私有 的 、 可 写 的 页 (VM_SHARED 标 志 关 团 ，VM_MAYWRITE 标 志 打 
开 ) 所 对 应 的 任 一 页 框 都 标记 为 对 父子 进程 是 只 读 的 ， 以 便 这 种 页 框 能 用 写 时 复制 机 
制 进 行 处 理 。 


删除 进程 的 地 址 空间 
当 进 程 结 束 时 ， 内 核 调用 exit_mm() 函数 释放 进程 的 地 址 空间 


mm_release{tsk, tsk->mm),; 

if (!i{mm = tsk->mm)) /* kernel thread ? */ 
return,; 

Aown_read(&mm->mmap_sem),; 


mm_release() 畏 数 唤 醒 在 tsk->vfork_qone 补 充 原 语 上 睡眠 的 任 一 进程 《参见 第 五 章 
“补充 原 语 ”一 节 )。 典 型 地 ， 只 有 当 现 有 进程 通过 vfork() 系 统 调用 被 创建 时 ， 相 应 的 
等 待 队列 才 会 为 非 空 (参见 第 三 章 “clone()、fork() 及 vfork(O 系 统 调 用 ”一 刷 )。 


如 采 正 在 被 终止 的 进程 不 是 内 核 线程 ， exic_rm() 国 数 就 必须 释放 内 存 搞 述 符 和 所 有 相 
关 的 数据 结构 。 首 先 ， 它 检查 mm->core_waiters 标 志 是 否 被 置 位 : 如 果 是 ， 进 程 就 把 
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内 存 的 所 有 内 容 卸 载 到 一 个 转 储 文件 中 。 为 了 避免 转 储 文件 的 混乱 ， 国 数 利 用 mm 
->core_dqone 和 mm->core_startup_aqone 补 充 原 语 使 共享 同一 个 内 存 描述 符 mm 的 轻 量 
级 进程 的 执行 串 行 化 。 


接 下 来 ， 国 数 递增 内 存 描述 符 的 主 使 用 计数 器 ， 重 新 设置 进程 描述 符 的 mm 字段 ， 并 使 
处 理 器 处 于 懒惰 TLB 模式 (参见 第 二 章 的 “处 理 硬件 高 速 缓存 和 TLB” 一 市 ): 
atomic_inc(gmm->mm count),; 
spin_lock(tsk->alloc lock); 
tsk->mm = NULL:; 
up. read {&mm- >map_ sem),; 
enter_lazy_tlb{(mm, current):; 


spin_unlock (tsk->alloc_ lock): 
mmput (mm}; 


最 后 ， 调 用 mmput ( ) 函数 释放 局 部 描述 符 表 、 线 性 区 描述 符 和 页 表 。 不 过 ， 因 为 
exit_mm() 已 经 递增 了 主 使 用 计数 器 ， 所 以 并 不 释放 内 存 描述 符 本 身 。 当 要 把 正在 被 终 
止 的 进程 从 本 地 CPU 撤消 时 , 将 由 finish_task_switch() 函 数 释 放 内 存 撕 述 符 (参见 
第 七 章 “schedule(O 国 数 ” 一 节 )。 


堆 的 管理 


每 个 Unix 进程 都 拥有 一 个 特殊 的 线性 区 ， 这 个 线性 区 就 是 所 谓 的 堆 (heap), 堆 用 于 满 
足 进 程 的 动态 内 存 请 求 。 内 存 描述 符 的 start_brk 与 brk 字 段 分 别 限定 了 这 个 区 的 开始 
地 址 和 结束 地 址 。 


进程 可 以 使 用 下 面 的 API 来 请 求 和 释放 动态 内 存 : 


malloc!(size) 
请 求 size 个 字 市 的 动态 内 存 。 如 果 分 配 成 功 ， 就 返回 所 分 配 内 存单 元 第 一 个 字 节 
的 线性 地 址 。 

calloc(n,size) 
请 求 含 有 nn 个 大 小 为 size 的 元 素 的 一 个 数组 。 如 果 分 配 成 功 ， 就 把 数组 元 素 初 始 
化 为 0， 并 返回 第 一 个 元 素 的 线性 地 址 。 

realloc(Ptr,S1ze) 
改变 由 前 面 的 malloc() 或 calloc() 分 配 的 内 存 区 字段 的 大 小 。 

free (adar) 
释放 由 malloc() 或 calloc() 分 配 的 起 始 地 址 为 addr 的 线性 区 。 
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brk (addr) 
直接 修改 堆 的 大 小 。agddr 参数 指定 current->mm->brk 的 新 值 ， 返 回 值 是 线性 区 
新 的 结束 地 址 《进程 必须 检查 这 个 地 址 和 所 请 求 的 地 址 值 addr 是 否 一 致 ) 。 


sbrk (incr) 


类 似 于 brk(), 不 过 其 中 的 incr 参 数 指 定 是 增加 还 是 减少 以 字 节 为 单位 的 堆 大 小 。 


brk() 函 数 和 以 上 列 出 的 函数 有 所 不 同 ， 因 为 它 是 唯一 以 系统 调用 的 方式 实现 的 函数 ， 
而 其 他 所 有 的 困 数 都 是 使 用 brk() 和 mmap () 系 统 调用 实现 的 C 语言 库 图 数 〈 注 14)。 


当 用 户 态 的 进程 调用 brk () 系 统 调 用 时 , 内核 执 行 sys_brk (adar) 国 数 。 该 函数 首先 哈 
证 addr 参 数 是 否 位 于 进程 代码 所 在 的 线性 区 。 如 果 是 , 则 立即 返回 , 因为 堆 不 能 与 进程 
代码 所 在 的 线性 区 重 登 : 


mm = current->mm; 

down write{&mm->mmap_sem); 

If (addr < mm->end_ code}) ( 

Out : 
UP_writeltk&mmn->mmap_ sem) ， 
return mm->brk; 


由 于 brk() 系统 调用 作用 于 某 一 个 线性 区 ， 它 分 配 和 释放 完整 的 页 。 因 此 , 该 消 数 把 aadqr 
的 值 调整 为 PAGE_SIZE 的 倍数 , 然后 把 调整 的 结果 与 内 存 描述 符 的 brk 字 段 的 值 进行 比较 : 


newbrk = (addr + Oxfff) & Oxfffff000; 
Oldbrk = {mm->brk + Oxfff) & Oxfffff000; 
if (oldbrk == newbrk) { 

mm->brk = addr.; 

goto out,; 


} 


如 果 进 程 请 求 缩小 堆 ， 则 sys_brk() 调 用 do_munmap() 角 数 完成 这 项 任务 ， 然 后 返回 : 


if (addr <= mm->brk) { 
if {!do_munmap (mm, newbrk, oldbrk-newbrk)) 
mm->brk = addr; 
Goto out; 
} 


如 果 进 程 请 求 扩大 堆 , 则 sys_brk() 首 先 检 查 是 否 允 许 进 程 这 样 做 。 如 果 进 程 企图 分 配 
在 其 限制 范围 之 外 的 内 存 ， 国 数 并 不 多 分 配 内 存 ， 只 简单 地 返回 mm->brk 的 原 有 值 : 


rliim = current->signal->rlim[RLIMIT DATA] .rlim cur:; 





注 14: realloc() 闫 汤 数 也 可 以 使 用 mremap() 系 统 调 用 ， 


if (rlim < RLIM_INFINITY && addr - mm->start data > rlim) 
goto out; 


， 国 数 检查 扩大 后 的 堆 是 否 和 进程 的 其 他 线性 区 相 重 登 ， 如果 是 ,不 做 任何 事情 就 


If {find vma_intersection{mm, oldbrk, newbrk+PAGE SIZE)) 
goto out; 


如 果 一 切 都 顺利 ， 则 调用 do_brk () 国 数 。 如 果 它 返回 oldqbrk， ea Sys_brk{) 
国 数 返回 addr 的 值 ， 否 则 ， 返 回 旧 的 mm->brk 值 ; 


if (ac brk(toldbrk, newbrk-oldbrk}) == oldbrk) 
mm->brk = addr: 
QOto out,; 


qo_brk () 国 数 实际 上 是 仅 处 理 匿 名 线性 区 的 go_mmap () 的 向 化 版 。 可 以 认为 它 的 调用 
等 价 于 : 


do_mmap (NULL, oldbrk, newbrk-oldbrk, PROT_READ|PROT WRITE!|PROT_EXEC, 
MAP_FIXEDIMAP_PRIVATE, 0) 


当然 ，do_brk () 比 do_mmap(}) 稍 快 ， 因 为 前 者 假定 线性 区 不 映射 磁盘 上 的 文件 ， 从 而 
避免 了 检查 线性 区 对 象 的 几 个 字段 。 
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操作 系统 为 在 用 户 态 运行 的 进程 与 硬件 设备 (如 CPU、 磁盘 、 打 印 机 等 等 ) 进行 交互 提 
供 了 一 组 接口 。 在 应 用 程序 和 硬件 之 间 设 置 一 个 额外 层 具 有 很 多 优点 。 首 先 ,这 使 得 编 
程 更 加 容易 ,把 用 户 从 学 习 硬 件 设备 的 低级 编程 特性 中 解放 出 来 。 其 次 , 这 极 大 地 提高 
了 系统 的 安全 性 ,因为 内 核 在 试图 满足 某 个 请 求 之 前 在 接 只 级 就 可 以 检查 这 种 请 求 的 正 
确 性 。 最 后 , 更 重要 的 是 这 些 接口 使 得 程序 更 具有 可 移植 性 ， 因 为 只 要 内 核 所 提供 的 一 
组 接口 相同 ， 那 么 在 任 一 内 核 之 上 就 可 以 正确 地 编译 和 执行 程序 。 


Unix 系统 通过 回 内 核发 出 系统 调用 (system call) 实现 了 用 户 态 进程 和 硬件 设备 之 间 的 
大 部 分 接口 。 本 章 将 详细 讨论 Linux 内 核 是 如 何 实现 这 些 由 用 户 态 进程 向 内 核发 出 的 系 
统 调用 的 。 


POSIX API 和 系统 调用 


让 我 们 先 强 调 一 下 应 用 编程 接口 (AP1) 与 系统 调用 之 不 同 。 前 者 只 是 一 个 尔 数 定义 ,说 
明了 如 何 获 得 一 个 给 定 的 服务 ， 而 后 者 是 通过 软 中 断 向 内 核 态 发 出 一 个 明确 的 请 求 。 


Unix 系统 给 程序 员 提 供 了 很 多 API 的 库 图 数 。libc 的 标准 C 库 所 定义 的 一 些 API 引 用 了 
封装 例 程 (wrapper routine) (其 唯一 目的 就 是 发 布 系 统 调 用 )。 通常 情况 下 , 每 个 系统 
调用 对 应 一 个 封装 例 程 ， 而 封装 例 程 定义 了 应 用 程序 使 用 的 API。 


反之 则 不 然 ， 顺 便 说 一 句 ， 一 个 API 没 必要 对 应 一 个 特定 的 系统 调用 。 首 先 ，API 可 能 
直接 提供 用 户 态 的 服务 (例如 一 些 抽 象 的 数学 函数 , 根本 没 必 要 使 用 系统 调用 )。 其 次 ， 
一 个 单独 的 API 函数 可 能 调用 几 个 系统 调用 。 此 外 ,， 几 个 API 国 数 可 能 调用 封装 了 不 同 
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功能 的 同一 系统 调用 。 例如 ,Linux 的 jpc 库 国 数 实现 了 malloc()、calloc() 和 free() 
等 POSIX API, 这 几 个 函数 分 配 和 释放 所 请 求 的 内 存 ， 并 都 利用 ibrk() 系 统 调用 来 扩大 
或 缩小 进程 的 堆 (heap) (参见 第 九 章 中 的 “ 堆 的 管理 ”一 市 )。 


POSIX 标准 针对 AP] 而 不 针对 系统 调用 。 判 断 一 个 系统 是 否 与 POSIX 兼容 要 看 它 是 否 
提供 了 一 组 合适 的 应 用 程序 接口 ， 而 不 管 对 应 的 国 数 是 如 何 实 现 的 。 事 实 上 ， 一 些 非 
Uuix 系统 被 认为 是 与 POSIX 兼容 的 , 因为 它们 在 用 户 态 的 库 函 数 中 提供 了 传统 Unix 能 
提供 的 所 有 服务 。 


从 编程 者 的 观点 看 ， API 和 系统 调用 之 间 的 差别 是 没有 关系 的 : 唯一 相关 的 事情 就 是 函 
数 名 、 参 数 类 型 及 返回 代码 的 含义 。 然 而 ， 从 内 核 设计 者 的 观点 看 ， 这 种 差别 确实 有 关 
系 ， 因 为 系统 调用 属于 内 核 ， 而 用 户 态 的 库 函 数 不 属于 内 核 。 


大 部 分 封装 例 程 返回 一 个 整数 , 其 值 的 含义 依赖 于 相应 的 系统 调用 。 返回 值 -1 通常 表示 内 
核 不 能 满足 进程 的 请 求 。 系 统 调用 处 理 程序 的 失败 可 能 是 由 无 效 参数 引起 的 ， 也 可 能 是 因 
为 缺乏 可 用 资源 ， 或 硬件 出 了 问题 等 等 。 在 lbc 库 中 定义 的 errno 变量 包含 特定 的 出 错 码 。 


每 个 出 错 码 都 定义 为 一 个 常量 宏 (产生 一 个 相应 的 正 整 数值 )。POSIX 标准 指定 了 很 多 
出 错 码 的 宕 名 。 在 基于 80x86 系统 的 Linux 中 ,在 一 个 名 为 include/asm-i386/errno.h 的 
头 文 件 中 定义 了 这 些 宏 。 为 了 使 各 种 Unix 系统 上 的 C 程序 具有 可 移植 性 ， 在 标准 的 C 
库 头 交 件 /usr/include/errno.h 中 也 包含 了 include/asm-i386/errno.h 汰 文件 。 其 他 的 系统 
有 它们 目 己 专门 的 头 文件 子 且 永 。 


系统 调用 处 理 程 序 及 服务 例 程 


当 用 户 态 的 进程 调用 一 个 系统 调用 时 , CPU 切换 到 内 核 态 并 开始 执行 一 个 内 核 函 数 。 正 
如 我 们 在 下 一 市 将 要 看 到 的 那样 ， 在 80x86 体系 结构 中 ， 可 以 用 两 种 不 同 的 方式 调用 
Linux 的 系统 调用 。 两 种 方式 的 最 终结 果 都 是 跳 转 到 所 谓 系 统 调用 处 理 程序 (sysiem call 
handler) 的 汇编 语言 函数 。 


因为 内 核实 现 了 很 多 不 同 的 系统 调用 ,因此 进程 必须 传递 一 个 名 为 系统 调用 号 (system 
call number) 的 参数 来 识别 所 需 的 系统 调用 ,eax 寄存 器 就 用 作 此 目的 。 正如 我 们 将 在 
本 章 的 “参数 传递 ”一 节 所 看 到 的 ， 当 调用 一 个 系统 调用 时 通常 还 要 传递 另外 的 参数 。 


所 有 的 系统 调用 都 返回 一 个 整数 值 。 这 些 返 回 值 与 封装 例 程 返回 值 的 约定 是 不 同 的 。 在 
内 核 中 , 正 数 或 0 表示 系统 调用 成 功 结束 , 而 负数 表示 一 个 出 错 条 件 。 在 后 一 种 情况 下 ， 
这 个 值 就 是 存放 在 errno 变 量 中 必须 返回 给 应 用 程序 的 负 出 错 码 。 内 核 没 有 设置 或 使 用 
errno 变 量 ， 而 封装 例 程 从 系统 调用 返回 之 后 设置 这 个 变量 。 
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系统 调用 处 理 程 序 与 其 他 异常 处 理 程序 的 结构 类 似 ， 执 行 下 列 操作 : 


。 ”在 内 核 态 栈 保存 大 多 数 寄存 器 的 内 容 (这 个 操作 对 所 有 的 系统 调用 都 是 通用 的 ,并 
用 汇编 语言 编写 )。 

。 ”调用 名 为 系统 调用 服务 例 程 (system call service routine) 的 相应 的 C 函数 来 处 理 
系统 调用 。 

。 “退出 系统 调用 处 理 程 序 : 用 保存 在 内 核 栈 中 的 值 加 载 寄 存 器 ,CPU 从 内 核 态 切换 回 
到 用 户 态 (所 有 的 系统 调用 都 要 执行 这 一 相同 的 操作 ， 该 操作 用 汇编 语言 代码 实 
现 )。 


xyz() 系统 调 用 对 应 的 服务 例 程 的 名 字 通 常 是 sys_xyz()。 不 过 也 有 一 些 例外 。 


10-1 显 示 了 调用 系统 调用 的 应 用 程序 、 相 应 的 封装 例 程 、 系 统 调用 处 理 程序 及 系统 调用 
服务 例 程 之 间 的 关系 。 箭 头 表 示 函 数 之 则 的 执行 流 。 占 位 符 "SYSCALL" 和 "SYSEXIT" 是 
真正 的 汇编 语言 指令 ,它们 分 别 把 CPU 从 用 户 态 切换 到 内 核 态 和 从 内 核 态 切 换 到 用 户 态 。 


system call: 


sys_xyz() 
SYSEXIT 
在 应 用 程序 中 ”在 libc 标 准 库 


系统 调用 中 的 封装 系统 调用 处 理 程序 系统 调用 服务 例 程 
的 调用 例 程 





10-1 . 调用 一 个 系统 调用 


为 了 把 系统 调用 号 与 相应 的 服务 例 程 关联 起 来 ， 内 核 利 用 了 一 个 系统 调用 分 派 表 
(dispatch table)。 这 个 表 存 放 在 sys_call_table 数 组 中 ， 有 NR_syscalls 个 表 项 (在 
Linux 2.6.11 内 核 中 是 289): 第 nn 个 表 项 包含 系统 调用 号 为 n 的 服务 例 程 的 地 址 。 


NR_syscalls 宏 只 是 对 可 实现 的 系统 调用 最 大 个 数 的 静态 限制 , 并 不 表示 实际 已 实现 的 
系统 调用 个 数 。 实 际 上 ， 分派 表 中 的 任意 一 个 表 项 也 可 以 包含 sys_ni_syscall1() 国 数 
的 地 址 ， 这 个 国 数 是 “未 实现 ”系统 调用 的 服务 例 程 ， 它 仅仅 返回 出 错 码 -ENOSYS。 
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进入 和 退出 系统 调用 

本 地 应 用 ( 注 1) 可 以 通过 两 种 不 同 的 方式 调用 系统 调用 : 

。 ”执行 int $0x80 汇 编 语言 指令 。 在 Linux 内 核 的 老 版 本 中 ， 这 是 从 用 户 态 切换 到 
内 核 态 的 唯一 方式 。 

。 ”执行 sysenter 汇编 语言 指令 。 在 Intel Pentium 工 微 处 理 器 心 片 中 引入 了 这 条 指 
令 ， 现 在 Linux 2.6 内 核 支持 这 条 指令 。 

同样 ， 内 核 可 以 通过 两 种 方式 从 系统 调用 退出 ， 从 而 使 CPU 切换 回 到 用 户 态 : 

。 ”执行 iret 汇编 语言 指令 。 

。 ”执行 sysexit 汇编 语言 指令 ， 它 和 sysenter 指令 同时 在 Intel Pentium 1I 微 处 理 
器 中 引入 。 

但 是 ， 支 持 进入 内 核 的 两 种 不 同方 式 并 不 像 看 起 来 那么 简单 ， 因 为 : 

。 ”内 核 必 须 既 支持 只 使 用 int $0x80 指 令 的 旧 函 数 库 , 同时 支持 也 可 以 使 用 sysenter 

。 ”使 用 sysenter 指 令 的 标准 库 必须 能 处 理 仅 支 持 int $0x80 指令 的 旧 内 核 。 

。 内核 和 标准 库 必 须 既 能 运行 在 不 包含 sysenter 指令 的 旧 处理 强 上 ,也 能 运行 在 包含 
它 的 新 处 理 器 上 。 


在 本 章 稍 后 “通过 sysenter 指令 发 出 系统 调用 ”一 节 ， 我 们 将 看 到 Linux 内 核 是 如 何 解 
决 这 些 兼 容 性 问题 的 。 


通过 int $0x80 指令 发 出 系统 调用 


调用 系统 调用 的 传统 方法 是 使 用 汇编 语言 指令 int, 在 第 四 章 “中断 和 异常 的 硬件 处 理 
一 节 曾 讨论 过 这 条 指令 。 


回 量 128( 十 六 进 制 0x80) 对 应 于 内 核 和 人 口 点 。 在 内 核 初 始 化 期 间 调用 的 函数 Erap_init ()， 
用 下 面 的 方式 建立 对 应 于 向 量 128 的 中 断 描 述 符 表 表 项 


注 ] ; 就 像 我 们 在 第 二 十 章 “ 执 行 域 一 节 ” 中 将 要 看 到 的 ，Linux 可 以 执行 其 他 操作 系统 所 编 
译 的 程序 。 因 此 内 核 提 供 了 一 种 进入 和 东 统 调用 的 兼容 模式 : 执行 iBCS 和 Solaris/x86 程 
序 的 用 户 态 进程 可 以 通过 跳 转 到 默认 局 部 描述 竺 表 中 的 适当 调用 门 进 入 内 核 。 
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set_Ssystem gate(0x80, &system call); 


该 调用 把 下 列 值 存 入 这 个 门 描述 符 的 相应 字段 (参见 第 四 章 中 的 “中 断 门 、 陷阱 门 及 系 
统 门 ”一 市 ); 


Segment Selector 


内 核 代 码 段 __KERNEL_CS 的 段 选 择 符 。 


Offset 
指向 system_call() 系 统 调用 处 理 程序 的 指针 。 


Type 
置 为 13。 表示 这 个 异常 是 一 个 陷阱 ， 相 应 的 处 理 程序 不 禁止 可 屏蔽 中 断 。 


DPL (描述 从 特权 级 ) 
置 为 3。 这 就 允许 用 户 态 进程 调用 这 个 异常 处 理 程序 (参见 第 四 章 中 的 “中 断 和 异 
常 的 硬件 处 理 ” 一 节 )。 


因此 , 当 用 户 态 进 程 发 出 int $0x80 指 令 时 , CPU 切换 到 内 核 态 并 开始 从 地 址 system_call 
处 开始 执行 指令 。 


System_call(O) 函数 


system_call() 国 数 首 先 把 系统 调用 号 和 这 个 异常 处 理 程序 可 以 用 到 的 所 有 CPU 寄存 器 
保存 到 相应 的 栈 中 ,不 包括 由 控制 单元 已 自动 保存 的 eflags、cs、eip、ss 和 esp 寄 在 
(参见 第 四 章 中 的 “中 断 和 异常 的 硬件 处 理 ” 一 节 )。 在 第 四 章 的 “LO 中断 处 理 ” 

节 中 已 经 讨论 的 SAVE_ALL 宏 ， 也 在 as 和 es 中 装 入 内 核 数 据 段 的 段 选 择 符 : 
system call: 
pushl $eax 
SAVE_ALL 


movl] S$SOxftfffe000, Sebx /* or Oxfffftf0O00 for 4-KB stacks */ 
andl] ®%esp, $Cebx 


随后 , 这 个 函数 在 ebx 中 存放 当前 进程 的 thread_info 数 据 结 构 的 地 址 , 这 是 通过 获得 
内 核 栈 指针 的 值 并 把 它 取 整 到 4KB 或 8KB 的 倍数 而 完成 的 (参见 第 三 章 中 的 “标识 一 
个 进程 ”一 市 )。 


按 下 来 ，system_call() 国 数 检查 threaq_info 结 构 flag 字 段 的 TIF_SYSCALL_ TRACE 
和 TIF_SYSCALL_AUDIT 标 志 之 一 是 否 被 设置 为 1 ， 也 就 是 检查 是 否 有 某 一 调试 程序 正 
在 跟踪 执行 程序 对 系统 调用 的 调用 。 如 果 是 这 种 情况 , 那么 system_call() 函 数 两 次 调 
用 do_syscall_trace() 国 数 : 一 次 正好 在 这 个 系统 调用 服务 例 程 执行 之 前 ,一 次 在 其 
之 后 ( 稍 后 对 其 进行 说 明 )。 这 个 函数 停止 current， 并 因此 允许 调试 进程 收集 关于 


current 的 信息 。 
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然后 , 对 用 户 态 进程 传递 来 的 系统 调用 号 进行 有 效 性 检查 。 如 果 这 个 号 大 于 或 等 于 系统 
调用 分 派 表 中 的 表 项 数 ， 系 统 调用 处 理 程序 就 终止 : 

cmpl SNR_ syscalls, $%Seax 

jb nobadsys 

movl1l S$(-ENOSYS}), 24(%esp) 


jmp resume userspace 
nobadsys: 


如 果 系 统 调用 号 无 效 ， 该 函数 就 把 -ENOSYS 值 存放 在 栈 中 曾 保存 eax 寄存 器 的 单元 中 
(从 当前 栈 顶 开始 偏 移 量 为 24 的 单元 )。 然 后 跳 到 resume_userspace ( 见 下 面 )。 这 样 ， 
当 进 程 恢 复 它 在 用 户 态 的 执行 时 ， 会 在 eax 中 发 现 一 个 负 的 返回 码 。 


最 后 ， 调 用 与 eax 中 所 包含 的 系统 调用 号 对 应 的 特定 服务 例 程 : 


call *sys call kaplelO0，$geax，4) 


因为 分 派 表 中 的 每 个 表 项 占 4 个 字 节 ,因此 首先 把 系统 调用 号 乘 以 4, 再 加 上 sys_call_table 
分 派 表 的 起 始 地 址 ， 然 后 从 这 个 地 址 单元 获取 指向 服务 例 程 的 指针 ， 内 核 就 找到 了 要 调用 的 
服务 例 程 。 


从 系统 调用 退出 


当 系 统 调 用 服务 例 程 结 束 时 ，system_call() 国 数 从 eax 获 得 它 的 返回 值 ， 并 把 这 个 返 
回 值 存放 在 曾 保 存 用 户 态 eax 寄存 器 值 的 那个 栈 单元 的 位 置 上 : 


movl] %®%eax, 24{%esp) 
因此 ， 用 户 态 进 程 将 在 eax 中 找到 系统 调用 的 返回 码 。 
然后 ,system_call() 娟 数 关 闭 本 地 中 断 并 检查 当前 进程 的 threagd_info 结 构 中 的 标志 : 


cll 

movl1 8(%ebD), Secx 
testw SOxffff, %cx 
Je restore all 


flags 字段 在 thread_info 结 构 中 的 偏 移 量 为 8， 掩 码 0xffff 选择 与 表 4-15 中 列 出 的 
所 有 标志 (不 包括 TIF_POLLING_NRFLAG) 相对 应 的 位 。 如果 所 有 的 标志 都 没有 被 设置 ， 
国 数 就 跳 转 到 restore_all 标 记 处 , 就 像 在 第 四 章 “ 从 中 断 和 异常 返回 ”一 节 中 所 描述 
的 ，restore_all 标记 处 的 代码 恢复 保存 在 内 核 栈 中 的 寄存 器 的 值 ， 并 执行 iret 汇编 
语言 指令 以 重新 开始 执行 用 户 态 进程 (你 可 以 参考 如 图 4-6 所 示 的 流程 图 )。 


只 要 有 任何 一 种 标志 被 设置 ， 那 么 就 要 在 返回 用 户 态 之 前 完成 一 些 工 作 。 如 果 
TIF_SYSCALL_TRACF 标 志 被 设置 , system_call() 函 数 就 第 二 次 调用 do_syscall_trace() 
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滑 数 ， 然 后 跳 转 到 resume_userspace 标 记 处 。 否 则 ， 如 果 TIF_SYSCALL_TRACE 标 志 
没有 被 设置 ， 函 数 就 跳 转 到 work_pending 标 记 处 。 


就 像 在 第 四 章 “ 从 中 断 和 异常 返回 ”一 市 中 所 描述 的 ,在 resume_userspace 和 
work_pending 标 记 处 的 代码 检查 重新 调度 请 求 、 虚 拟 8086 模 式 、 挂 起 信号 和 单 步 执行 ， 
最 终 跳 转 到 restore_all 标记 处 以 恢复 用 户 态 进程 的 执行 。 


通过 sysenter 指令 发 出 系统 调用 
汇编 语言 指令 int 由 于 要 执行 几 个 一 致 性 和 安全 性 检查 , 所 以 速度 较 慢 (这 条 指令 的 详 
细 说 明 见 第 四 章 “ 中 断 和 异常 的 硬件 处 理 ” 一 布 )。 


在 Intel 文 档 中 被 称 为 “快速 系统 调用 ”的 sysenter 指 令 , 提供 了 一 种 从 用 户 态 到 内 核 
态 的 快速 切换 方法 。 


sysenter 指令 
汇编 语言 指令 sysenter 使 用 三 种 特殊 的 寄存 器 ， 它 们 必须 装 入 下 述 信息 〈 注 2): 
SYSENTER_CS_MSR 
内 核 代 码 段 的 段 选择 符 
SYSENTER_EIP_MSR 
内 核 入 口 点 的 线性 地 址 
SYSENTER_ESP_MSR 
内 核 堆栈 指 针 
执行 sysenter 指令 时 ，CPU 控制 单元 : 


1. 把 SYSENTER_CS_MSR 的 内 容 拷 贝 到 cs 。 
2. 把 SYSFENTER_EIP_MSR 的 内容 乒 贝 到 einp。 
3， 把 SYSENTER_ESP_MSR 的 内 容 撕 由 到 esp。 


4. 把 SYSENTER_CS_MSR 加 3 的 值 装 入 ss。 


因此 ，CPU 切换 到 内 核 态 并 开始 执行 内 核 入 口 点 的 第 一 条 指令 。 就 像 我 们 在 第 二 章 


注 2: “MSR” 是 “Model-Specific Register” 的 缩写 ， 表 示 仅 在 当前 一 些 80 x 86 微 处 理 器 中 
存在 的 某 个 寄存 器 。 
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“Linux GDT ”一 节 中 所 见 到 的 ， 内 核 堆栈 段 与 内 核 数据 段 是 一 致 的 ， 而 且 在 全 局 描述 
符 表 中 ， 其 描述 符 紧 跟 在 内 核 代 码 段 的 描述 符 之 后 所以， 第 4 步 把 正确 的 段 选择 符 装 
入 了 ss 寄存器。 


在 内 核 初始 化 期 间 , 一 旦 系统 中 的 每 个 CPU 执行 图 数 enable_sep_cpu(), 三 个 特定 于 
模型 的 寄存 器 就 由 该 函数 初始 化 了 。enable_sep_cpu() 函 数 执行 以 下 步 又 : 


i. 把 内 核 代码 (__ KERNEL_CS) 的 段 选 择 符 写 人 SYSENTER_CS_MSR 寄存 器 。 
2. 把 下 面 要 说 明 的 函数 sysenter_entry () 的 线性 地 址 写 人 SYSFENTER_CS_EIP 寄 存 絮 。 
3. 计算 本 地 TSS 末 端的 线性 地 址 , 并 把 这 个 值 写 入 SYSENTER_CS_ESP 寄 存 器 ( 注 3)。 


对 SYSENTER_CS_ESP 寄存 器 的 设置 有 必要 进行 一 些 说 明 。 系 统 调用 开始 的 上 时候， 内 
核 堆栈 是 空 的 ， 因 此 esp 寄存 器 应 该 指向 4KB 或 8KB 内 存 区 域 的 末端 ,该 内 存 区 域 包 
括 内 核 堆栈 和 当前 进程 的 描述 符 ( 见 图 3-2)。 因 为 用 户 态 的 封装 例 程 不 知道 这 个 内 存 区 
域 的 地 址 ， 所 以 它 不 能 正确 设置 这 个 寄存 器 。 另 一 方面 ,由 于 必须 在 切换 到 内 核 态 之 前 
设置 该 寄存 器 的 值 ， 因此 , 内 核 初 始 化 这 个 寄存 器 以 便 为 本 地 CPU 的 任务 状态 段 编 址 。 
就 像 我 们 在 __ switch_to() 函 数 的 第 3 步 所 描述 的 ( 见 第 三 章 “ 执 行进 程 切换 ”一 布 )， 
在 每 次 进程 切换 时 , 内 核 把 当前 进程 的 内 核 栈 指针 保存 到 本 地 TSS 的 esp0 字 段 。 这样 ， 
系统 调用 处 理 程序 读 esp 寄存 器 , 计算 本 地 TSS 的 esp0 字 段 的 地 址 , 然后 把 正确 的 内 
核 堆 栈 指 针 装 入 esp 寄存 器 。 


VSyYScall 页 
只 要 CPU 和 Linux 内核 都 支持 sysenter 指 令 , 标准 库 1ipc 中 的 封装 国 数 就 可 以 使 用 它 。 


这 个 兼容 性 问题 需要 非常 复杂 的 解决 方案 。 本 质 上 ,在 初始 化 阶段 , sysenter_setup () 
负数 建立 一 个 称 为 vsyscal! 页 的 页 框 ， 其 中 包括 一 个 小 的 EFL 共享 对 象 (也 就 是 ) 一 个 
很 小 的 EFL 动态 链接 库 ) 。 当 进程 发 出 execve() 系 统 调用 而 开始 执行 一 个 EFL 程序 时 ， 
vsyscall 页 中 的 代码 就 会 自动 地 被 链接 到 进程 的 地 址 空间 (参见 第 二 十 章 “exec 函数 ” 
一 节 )。vsyscall 页 中 的 代码 使 用 最 有 用 的 指令 发 出 系统 调用 。 


图 数 sysenter_setup() 为 vsyscall 页 分 配 一 个 新 页 框 ， 并 把 它 的 物理 地 址 与 
FIX_VSYSCALL 固 定 上 映射 的 线性 地 址 相关 联 (参见 第 二 章 “ 固 定 映射 的 线性 地 址 ”一 节 )。 
然后 , 国 数 sysenter_setup () 把 预先 定义 好 的 一 个 或 两 个 EFL 共 享 对 象 拷贝 到 该 页 中 : 





注 3， 把 本 地 TSS 地 址 编码 写 入 SYSENTER_ESP_MSR 寄 存 器 ,是 因为 该 寄存 器 应 该 指向 一 个 
实际 的 栈 , 该 栈 向 低地 址 方向 增长 。 实际 上 可 以 用 任何 值 初 始 化 SYSENTER_ESP_MSR 
寄存 器 ， 只 要 能 够 从 这 个 值 获得 本 地 TSS 的 地 址 即 可 。 
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如 果 CPU 不 支持 sysenter，sysenter_setup() 国 数 建立 一 个 包括 下 列 代 码 的 
vsyscall 页 : 


__kernel_ vsyscall: 
int S$SOx80 
ret 


否则 ， 如 果 CPU 的 确 支持 sysenter，sysenter_setup() 国 数 建立 一 个 包括 下 列 
代码 的 vsyscall 页 : 


__kernel vsyscall: 
pushl ®ecx 
pushl %Sedx 
pushl gebp 
moOv] %Sesp, Sebp 
Sy Senter 


当 标准 库 中 的 封装 例 程 必 须 调 用 系统 调用 时 ， 都 调用 __kernel_vsyscall() 国 数 ， 不 
管 它 的 实现 代码 是 什么 。 


最 后 一 个 兼容 性 问题 是 由 于 老 版 本 的 Linux 内 核 不 支持 sysenter 指 令 , 在 这 种 情况 下 ， 
内 核 当 然 不 建立 vsyscall 页 ， 而 且 图 数 -__kernel_vsyscall() 不 会 被 链接 到 用 户 态 进 
程 的 地 址 空间 。 当 新 近 的 标准 库 识 别 出 这 种 状况 后 , 就 简单 地 执行 int $0x80 指 令 来 调 
用 系统 调用 。 


进入 系统 调用 
当 用 sysenter 指令 发 出 系统 调用 时 ， 依 次 执行 下 述 步 又 : 


] . 


标准 库 中 的 封装 例 程 把 系统 调用 号 装 入 eax 寄 存 器 ,并 调用 __kernel_vsyscall 1() 
图 数 。 

函数 _ _kernel_vsyscall() 把 ebsp、edx 和 ecx 的 内 容 保 存 到 用 户 态 堆栈 中 (系统 调 
用 处 理 程 序 将 使 用 这 些 寄存 器 ), 把 用 户 栈 指针 拷贝 到 ebp 中 ， 然 后 执行 sysenter 指 
令 。 


CPU 从 用 户 态 切换 到 内 核 态 ， 内 核 开 始 执 行 sysenter_enktry() 图 数 〈 由 
SYSENTER_EIP_MSR 寄存 器 指向 ) 。 


sysenter_entry () 汇 编 语 言 国 数 执行 下 述 步骤: 

a. 建立 内 核 堆栈 指针 : 
movl -508 (%esp), %esp 
开始 时 ，esp 寄存 器 指向 本 地 TSS 的 第 一 个 位 置 ， 本 地 TSS 的 大 小 为 512 字 
节 。 因 此, sysenter 指令 把 本 地 TSS 中 偏 移 量 为 4 处 的 字段 的 内 容 (就 是 esp0 
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字段 的 内 容 ) 装 入 esp。 就 像 前 面 我 们 已 经 说 明 的 , esp0 字 有 段 总 是 存放 当前 进 
程 的 内 核 堆栈 指针 。 


打开 本 地 中 断 : 


st1 


把 用 户 数据 段 的 段 选 择 符 、 当 前 用 户 栈 指针 、 eflags 寄 存 占 、 用 户 代 码 段 的 
段 选择 符 以 及 从 系统 调用 退出 时 要 执行 的 指令 的 地 址 保存 到 内 核 堆栈 中 : 


Pushl $(__USER_DS) 
PuShl $ebp 

pushfi 

PuUShl $(__USER_CS) 
pushl SSYSENTER_RETURN 


这 些 指令 仿效 汇编 语言 指令 int 所 执行 的 一 些 操作 (参见 第 四 介 “ 中 断 和 异常 
的 硬件 处 理 ” 一 市 中 对 int 描述 的 第 5c 步 和 第 7 步 操作 ) 。 


把 原来 由 封装 例 程 传递 的 寄存 器 的 值 恢复 到 epp 中 : 


movl1 (%ebp), %ebp 


上 面 这 条 指令 完成 恢复 的 工作 ， 因 为、_kernel_vsyscall() 国 数 把 ebp 的 原 
始 值 存 入 用 户 态 堆栈 中 ， 并 在 随后 把 用 户 堆 栈 指针 的 当前 值 装 入 ebp 中。 

通过 执行 一 系列 指令 调用 系统 调用 处 理 程 序 , 这 些 指令 与 前 面 “ 通 过 int $0x80 
指令 发 出 系统 调用 "一 节 所 描述 的 在 system_call 标 记 处 开始 的 指令 是 一 样 的 。 


退出 系统 调用 
当 系 统 调 用 服务 例 程 结束 时 ，sysenter_entry () 国 数 本 质 上 执行 与 syscem_call() 图 
数 相 同 的 操作 ( 见 上 一 节 )。 首 先 ， 它 从 eax 获得 系统 调用 服务 例 程 的 返回 码 ， 并 将 返 


回 码 存 和 内核 栈 中 保存 用 己 态 eax 寄 存 绒 值 的 位 置 。 然 后 ， 国 数 禁止 本 地 中 断 ， 并 检查 
current 的 thread_info 结 构 中 的 标志 。 


如 果 有 任何 标志 被 设置 ， 那 么 在 返回 到 用 户 态 之 前 还 需要 完成 一 些 工作 。 为 了 避免 代码 复 
制 《 像 在 system_cal1l1() 国 数 中 所 做 的 那样 正确 处 理 这 种 情况 ) ， 函 数 跳 转 到 resume_ 
userspace 或 work_pending 标 记 处 (参见 第 四 章 图 4-6 所 示 的 流程 图 )。 最 后 ,汇编 语言 指 
令 iret 从 内 核 堆 栈 中 去 取 5 个 参数 (这 些 参数 是 在 sysenter_entry () 国 数 的 第 4c 步 被 保 
存 到 内 核 堆 栈 中 的 ， 这 样 ，CPU 切换 到 用 户 态 并 开始 执行 SYSENTER_RETURN 标 记 处 的 代码 
( 见 下 面 )。 


如 果 sysenter_entry () 图 数 确 定 标志 都 被 清 0， 它 就 快速 返回 到 用 户 态 : 
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mov1 40 ($esp), %®edx 

moOVv] 52{%esp), ®ecx 

xorl %ebp, %ebp 

sti 

SySexit 
把 在 上 一 节 由 sysenter_entry () 国 数 在 第 4c 步 保存 的 一 对 堆栈 值 加 载 到 edx 和 ecx 
寄存 器 中 : edx 获得 SYSENTER_RETURN 标记 处 的 地 址 ， 而 ecx 获 得 当前 用 户 数据 栈 
的 指针 。 


sysexit 指令 

sysexit 是 与 sysenter 配对 的 汇编 语言 指令 ; 它 允 许 从 内 核 态 快速 切换 到 用 户 态 。 执 
行 这 条 指令 时 ，CPU 控制 单元 执行 下 述 步 又 : 

1. 把 SYSENTER_CS_MSR 寄 存 器 中 的 值 加 16 所 得 到 的 结果 加 载 到 cs 寄存 器 。 

2. 把 edqx 寄 存 器 的 内 容 拷贝 到 eip 寄存 絮 。 

3. 把 SYSENTER_CS_MSR 寄存 器 中 的 值 加 24 所 得 到 的 结果 加 载 到 ss 寄存 器 。 

4. 把 ecx 寄存 器 的 内 容 措 风 到 esp 寄存 弱 。 

因为 SYSENTER_CS_MSR 寄 存 器 加 载 的 是 内 核 代码 的 段 选 择 符 , cs 寄存 器 加 载 的 是 用 户 代 


码 的 段 选 择 符 , 而 ss 寄存 器 加 载 的 是 用 户 数 据 段 的 段 选 择 符 (参见 第 二 章 “LinuxLDT” 
0 


结果 ，CPU 从 内 核 态 切换 到 用 户 态 ， 并 开始 执行 其 地 址 存放 在 edx 中 的 那 条 指令 。 


SYSENTER_RETURN 的 代码 


SYSENTER_RETURN 标 记 处 的 代码 存放 在 vsyscall 页 中 ， 当 通过 sysenter 进 入 的 系统 
调用 被 iret 或 sysexit 指令 终止 时 ， 该 页 框 中 的 代码 被 执行 。 


该 代码 片段 恢复 保存 在 用 户 态 堆栈 中 的 ebp 、edqx 和 ecx 寄 存 问 的 原始 内 容 ， 并 把 控制 
权 返 回 给 标准 库 中 的 封装 例 程 ， 


SYSENTER_RETURN: 
Pop] 外 ebp 
popl $edx 
PODl %®ecx 
ret 


参数 传递 


与 普通 国 数 类 似 ， 系 统 调 用 通常 也 需要 输入 /和 输出 参数 ， 这 些 参数 可 能 是 实际 的 值 〈 例 
如 数值 )， 也 可 能 是 用 户 态 进程 地 址 空间 的 变量 ， 甚 至 是 指向 用 户 态 函 数 的 指针 的 数据 
结构 地 址 《参见 第 十 一 章 “ 与 信号 处 理 相 关 的 系统 调用 ”一 市 )。 


因为 system_call() 和 sysenter_entry1() 国 数 是 Linux 中 所 有 系统 调用 的 公共 入 口 点 ， 
因此 每 个 系统 调用 至 少 有 一 个 参数 , 即 通 过 eax 寄 存 器 传递 来 的 系统 调用 号 。 例 如， 如 
果 一 个 应 用 程序 调用 fork() 封 装 例 程 ， 那 么 在 执行 int $0x80 或 sysenter 汇编 指令 
之 前 就 把 eax 寄存 器 置 为 2 ( 即 __NR_fork)。 因 为 这 个 寄存 器 的 设置 是 由 1libc 库 中 的 
封装 例 程 进行 的 ， 因 此 程序 员 通 常 并 不 用 关心 系统 调用 号 。 


fork() 系 统 调用 并 不 需要 其 他 的 参数 。 不 过 , 很 多 系统 调用 确实 需要 由 应 用 程序 明确 地 传 
递 男 外 的 参数 ,例如 , mmap() 系统 调用 可 能 需要 多 达 6 个 额外 参数 (除了 系统 调用 号 以 外 )。 


普通 C 函数 的 参数 传递 是 通过 把 参数 值 写 入 活动 的 程序 栈 (用 户 态 栈 或 者 内 核 态 栈 ) 实 
现 的 因为 系统 调用 是 一 种 横 跨 用 户 和 内 核 两 大 陆地 的 特殊 函数 , 所 以 既 不 能 使 用 用 户 
态 栈 也 不 能 使 用 内 核 态 栈 。 更 确切 地 说 , 在 发 出 系统 调用 之 前 ,系统 调用 的 参数 被 写 入 
CPU 寄存 器 ， 然 后 在 调用 系统 调用 服务 例 程 之 前 ， 内 核 再 把 存放 在 CPU 中 的 参数 据 贝 
到 内 核 态 堆栈 中 ， 这 是 因为 系统 调用 服务 例 程 是 普通 的 C 函数 。 


为 什么 内 核 不 直接 把 参数 从 用 户 态 的 栈 拷贝 到 内 核 态 的 栈 呢 ? 首先 ,同时 操作 两 个 栈 是 
比较 复杂 的 。 其 次 , 寄存 器 的 使 用 使 得 系统 调用 处 理 程序 的 结构 与 其 他 异常 处 理 程序 的 
结构 类 似 。 


然而 ， 为 了 用 寄存 器 传递 参数 ， 必 须 满 足 两 个 条 件 : 


。 ”每 个 参数 的 长 度 不 能 超过 寄存 器 的 长 度 ， 即 32 位 ( 注 4)。 


。 ”参数 的 个 数 不 能 超过 6 个 (除了 eax 中 传递 的 系统 调用 号 ) ， 因 为 80x86 处 理 器 的 
寄存 器 的 数量 是 有 限 的 。 


第 一 个 条 件 总 能 成 立 ， 因 为 根据 POSIX 标准 ， 不 能 存放 在 32 位 寄存 器 中 的 长 参数 必须 
通过 指定 它们 的 地 址 来 传递 。 一 个 典型 的 例子 就 是 settimeofday () 系 统 调用 ， 它 必须 
读 一 个 64 位 的 结构 。 


注 4: 与 往常 一 样 ， 这 里 指 的 是 80x86 处 理 器 的 32 位 体系 结构 。 本 节 的 讨论 并 不 适用 于 64 位 
体系 结构 。 
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然而 ,确实 存在 多 于 6 个 参数 的 系统 调用 。 在 这 样 的 情况 下 ， 用 一 个 单独 的 寄存 器 指向 
进程 地 址 空间 中 这 些 参数 值 所 在 的 一 个 内 存 区 。 当 然 , 编程 者 不 用 关心 这 个 工作 区 。 正 
如 任何 C 调 用 一 样 ， 当 调用 封装 例 程 时 ,参数 被 自动 地 保存 在 栈 中 。 封 装 例 程 将 找到 合 
适 的 方式 把 参数 传递 给 内 核 。 


用 于 存放 系统 调用 号 和 系统 调用 参数 的 寄存 器 是 (以 字母 递增 的 顺序 ): eax (存放 系统 
调用 号 )、ebx、ecx、edx、esi、edi 以 及 ebp。 正 如 以 前 看 到 的 一 样 ，system_call() 
和 sysenter_entry () 使 用 SAVE_ALL 宏 把 这 些 寄 存 器 的 值 保 存在 内 核 态 堆栈 中 。 因 此 ， 
当 系 统 调用 服务 例 程 转 到 内 核 态 堆栈 时 , 就 会 找到 system_call() 或 sysenter_entry () 
的 返回 地 址 ， 紧 接着 是 存放 在 ebx 中 的 参数 ( 即 系统 调用 的 第 一 个 参数 )， 存放 在 ecx 中 
的 参数 等 等 (参见 第 四 章 中 的 “为 中 断 处 理 程序 保存 寄存 器 的 值 ” 一 节 )。 这 种 栈 结构 与 
普通 函数 调用 的 栈 结构 完全 相同 , 因此 , 系统 调用 服务 例 程 很 容易 通过 使 用 C 语 言 结 构 来 
引用 它 的 参数 。 


让 我 们 来 看 一 个 例子 。 处 理 write() 系统 调用 的 sys_write() 服 务 例 程 的 声明 如 下 : 


int sys _ write (unsigned int fd, const char * buf, unsigned int count) 


C 编 译 器 产生 一 个 汇编 语言 函数 , 该 函数 期 望 在 栈 的 顶部 找到 fa、buf 和 count 参数 , 而 
这 些 参 数位 于 返回 地 址 (就 是 用 来 分 别 存 放 ebx、ecx 和 edx 寄 存 器 的 那些 位 置 ) 的 下 面 。 


在 少数 情况 下 , 即使 系统 调用 不 使 用 任何 参数 , 相应 的 服务 例 程 也 需要 知道 在 发 出 系统 
调用 之 前 CPU 寄存 器 的 内 容 。 例 如 ， 实 现 了 fork() 的 do_fork () 国 数 需 要 知道 有 关 寄 
存 器 的 值 ， 以 便 在 子 进程 的 thread 字段 中 复制 它们 (参见 第 三 章 的 “thread 字段 ”一 
节 )。 在 这 些 情况 下 ， 类 型 为 pt_regs 的 一 个 单独 参数 允许 服务 例 程 访 回 由 SaVE_ADL 
宏 保 存在 内 核 态 堆栈 中 的 值 (参见 第 四 章 中 的 “do_IRQO 国 数 ” 一 节 ) 


int sys_fork (struct pt regs regs) 


服务 例 程 的 返回 值 必 须 写 人 eax 寄存 器 中 。 这 是 在 执行 “return n;” 指 令 时 由 C 编译 程 
序 自动 完成 的 。 


验证 参数 

在 内 核 打 算 满 足 用 户 的 请 求 之 前 ,必须 仔细 地 检查 所 有 的 系统 调用 参数 。 检 查 的 类 型 既 
依赖 于 系统 调用 , 也 依赖 于 特定 的 参数 。 让 我 们 再 回 到 前 面 引 入 的 write() 系 统 调用 :fd 
参数 应 该 是 描述 一 个 特定 文件 的 文件 描述 符 ， 因 此 ，sys_write() 必 须 检 查 fa 是 否 确 
实 是 以 前 已 打开 文件 的 一 个 文件 描述 符 , 是 否 人 允许 进程 向 这 个 文件 中 写 数 据 (参见 第 一 
章 中 的 “文件 操作 的 系统 调用 ”一 节 )。 如 果 这 些 条 件 中 有 一 个 不 成 立 ， 那 么 这 个 处 理 
程序 必须 返回 一 个 负数 ， 在 这 种 情况 下 的 出 错 码 为 -EBADF。 
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然而 ， 有 一 种 检查 对 所 有 的 系统 调用 都 是 通用 的 。 只 要 一 个 参数 指定 的 是 地 址 ， 那么 内 
核 必 须 检 查 它 是 否 在 这 个 进程 的 地 址 空间 之 内 。 有 两 种 可 能 的 方式 来 执行 这 种 检查 : 


。 ”验证 这 个 线性 地 址 是 否 属 于 进程 的 地 址 空间 , 如 果 是 , 这 个 线性 地 址 所 在 的 线性 区 
就 具有 正确 的 访问 权限 。 


。 ”仅仅 验证 这 个 线性 地 址 是 否 小 于 PAGE_OFFSET( 即 设 有 落 在 留 给 内 核 的 线性 地 址 
区 间 内 )。 


早期 的 Linux 内 核 执行 第 一 种 检查 。 但 是 这 是 非常 费时 的 ,因为 它 必 须 对 系统 调用 中 包 
含 的 每 个 地 址 参数 都 进行 检查 ; 此 外 ,这 通常 没有 什么 意义 ,因为 有 错误 的 程序 并 不 是 
很 普遍 。 


因此 ， 从 Linux 2.2 内 核 开 始 执行 第 二 种 检查 。 这 是 一 种 更 高 效 的 检查 ， 因 为 不 需要 对 
进程 的 线性 区 摘 述 符 进 行 任何 扫描 。 很 显然 ,这 是 一 种 非常 粗略 的 检查 ， 验 证 线性 地 址 
小 于 PAGE_OFFSET 是 判断 它 的 有 效 性 的 必要 条 件 而 不 是 充分 条 件 。 但 是 , 因为 其 他 的 
错误 可 以 在 随后 捕获 到 ， 所 以 内 核 使 用 这 种 有 限 的 检查 没有 任何 风险 。 


因此 ,接着 采用 的 方法 是 将 真正 的 检查 尽 可 能 向 后 推迟 ,也 就 是 说 ， 推 迟到 分 页 单元 将 
线性 地 址 转换 为 物理 地 址 时 。 我 们 将 在 本 章 稍 后 的 “动态 地 址 检查 : 修正 代码 ”一 节 中 
讨论 , 缺 页 异 芝 处 理 程 序 如 何 成 功 地 检测 到 由 用 户 态 进 程 以 参数 传递 的 这 些 地 址 在 内 核 
态 是 无 效 的 。 


在 这 里 ,你 可 能 想 知道 究竟 为 什么 要 进行 这 种 粗略 检查 。 事 实 上 ， 这 种 粗略 的 检查 是 至 
关 重 要 的 , 它 确保 了 进程 地 址 空间 和 内 核 地 址 空间 都 不 被 非法 访问 。 我 们 在 第 二 章 中 已 
经 看 到 ，RAM 的 映射 是 从 PAGE_OFFSET 开始 的 。 这 就 意味 着 内 核 例 程 能 对 内 存 中 现 
有 的 所 有 页 进行 寻 址 。 因此， 如 果 不 进行 这 种 粗略 检查 ， 用户 态 进程 就 可 能 把 属于 内 核 
地 址 空间 的 一 个 地 址 作为 参数 来 传递 ,然后 还 能 对 内 存 中 现 有 的 任何 页 进行 读 写 而 不 引 
起 缺 页 异常 。 


对 系统 调用 所 传递 地 址 的 检查 是 通过 access_ok() 宏 实现 的 , 它 有 两 个 分 别 为 addr 和 size 
的 参数 。 该 宏 检查 addr 到 addr+size-1 之 间 的 地 址 区 间 ， 本 质 上 等 价 于 下 面 的 C 函数 : 


int access_ok{const void * addr, unsigned long size) 
{ 
unsigned long a = (unsigned long) addr.; 
if (a + Size < a || 
a + SizZe > current thread info(}->addr_ limit.seg) 
return 0; 
return 1; 
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该 函数 首先 验证 addr+size( 要 检查 的 最 高 地 址 ) 是 否 大 于 2” 一 1， 这 是 因为 GNU C 编 
译 器 (gcc) 用 32 位 数 表 示 无 符号 长 整 型 数 和 指针 ， 这 就 等 价 于 对 溢出 条 件 进 行 检查 。 
该 函数 还 检查 adqaqr+size 是 否 超过 crurrent 的 threaaq_info 结 构 的 adqqr_ 1imit.seg 
字段 中 存放 的 值 。 通 常情 况 下 ， 普 通 进程 这 个 字段 的 值 是 PAGE_OFFSET， 内 核 线程 是 
Oxffffffff。 可 以 通过 get_fs 和 set_fs 宏 动态 地 改变 addr_limit .seg 字 段 的 值 ; 这 
就 允许 内 核 绕 过 由 access_ok() 执 行 的 安全 性 检查 , 调用 系统 调用 的 服务 例 程 , 并 直接 
把 内 核 数 据 段 的 地 址 传递 给 它们 。 


图 数 verify_area() 执 行 与 access_ok() 安 类 似 的 检查 ， 虽 然 它 被 认为 是 陈旧 过 时 的 ， 
但 在 源 代码 中 仍然 被 广泛 使 用 。 


访问 进程 地 址 空间 

系统 调用 服务 例 程 需要 非常 频繁 地 读 写 进程 地 址 空间 的 数据 。Linux 包含 的 一 组 宏 使 这 
种 访问 更 加 容易 。 我 们 将 描述 其 中 的 两 个 名 为 get_user () 和 put_user() 的 宏 。 第 一 个 
宏 用 来 从 一 个 地 址 读 取 1、2 或 4 个 连续 字 节 , 而 第 二 个 宏 用 来 把 这 几 种 大 小 的 内 容 写 人 
一 个 地 址 中 。 


这 两 个 函数 都 接收 两 个 参数 ， 一 个 要 传送 的 值 x 和 一 个 变量 ptr。 第 二 变量 还 决定 有 多 
少 个 字 节 要 传送 。 因 此 , 在 get_user (x, ptr) 中 ,由 ptr 指 向 的 变量 大 小 使 该 函数 展 
开 为 __get_user_1()、__get_user 2() 或 __get_user_4() 汇 编 语言 山 数 。 让 我 们 
看 一 下 其 中 一 个 ， 比 如 ，__get_user 21(): 


__get user 2: 
addl $1, %®eax 
]c bad_get_user 
movl S$Oxffffe000, %®edx /* or Oxfffff000 for 4-KB stacks */ 
Aandl %esp, %®edx 
cmpl 24(%edx), 各 eaX 
jae bad_get_user 

2: movzwl -1 (%eax), ®%edx 
Xorl $%Seax, $Ceax 
ret 

bad _ get user: 
Xorl %Sedx, $®Sedx 
IOV] S$-EFAULT, S$®eax 
ret 


eax 寄存 器 包含 要 读 取 的 第 一 个 字 市 的 地 址 ptr。 前 6 个 指令 所 执行 的 检查 事实 上 与 
access_ok() 宏 相同 , 即 确保 要 读 取 的 两 个 字 节 的 地 址 小 于 4GB 并 小 于 current 进 程 的 
adgdr_limit.seg 字段 (这 个 字段 位 于 current 的 thread_info 结 构 中 偏 移 量 为 24 处 ， 
出 现在 cmp1 指令 的 第 一 个 操作 数 中 )。 
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如 果 这 个 地 址 有 效 ， 函 数 就 执行 movzwl 指令 ， 把 要 读 的 数据 存 到 edx 寄存 器 的 两 个 低 
字 节 ,而 把 两 个 高 字 节 置 为 0, 然后 在 eax 中 设置 返回 码 0 并 终止 。 如果 这 个 地 址 无 效 ， 
函数 请 edqx， 将 eax 置 为 -EFAULT 并 终止 。 


put_user (X，pPtr) 宏 类 似 于 前 边 讨 论 的 get_user， 但 它 把 值 x 写 人 以 地 址 Ptz 为 起 始 
地 址 的 进程 地 址 空间 。 根 据 x 的 大 小 ， 它 使 用 __put_user_asm() 宏 (大 小 为 1!、2 或 
4 字 记 )， 或 -_put_user_u64() 宏 (大 小 为 8 字 节 )。 这 两 个 宏 如 果 成 功 地 写 人 了 值 ， 
那 它 们 在 eax 寄存 器 中 返回 0， 否 则 返回 -EFAULT。 


在 表 10-1 中 列 出 了 内 核 态 下 用 来 访问 进程 地 址 空间 的 另外 几 个 函数 或 宏 。 注意 , 许多 卫 
数 或 宕 的 名 宇 前 级 有 两 个 下 划 线 (__ ), 首 部 没有 下 划 线 的 函数 或 宏 要 用 额外 的 时 间 对 
所 请 求 的 线性 地 址 区 间 进 行 有 效 性 检查 , 而 有 下 划 线 的 则 会 跳 过 检查 。 当 内 核 必 须 重复 
访问 进程 地 址 空间 的 同一 块 线性 区 时 ， 比 较 高 效 的 办 法 是 开始 时 只 对 该 地 址 检查 一 次 ， 
以 后 就 不 用 再 对 该 进程 区 进行 检查 了 。 


表 10-1: 访问 进程 地 址 空间 的 函数 和 宏 


疯 数 操作 

get_user __get_user 从 用 户 空 间 读 一 个 整数 (1、2 或 4 字 节 ) 
put_user _ _put_ user 给 用 户 空间 写 一 个 整数 (1、2 或 4 字 市 ) 
copy_from user __copy_from user 从 用 户 空间 复制 任意 大 小 的 块 
GORBY_ to Useér -COPpy_ to User 把 任意 大 小 的 块 复制 到 用 户 空间 
strncpy_from user_ _strncpy_from user 从 用 户 空 间 复 制 一 个 以 null 结束 的 字符 串 
strlen user strnlen user 返回 用 户 空间 以 null 结束 的 字符 串 的 长 度 
Clear User .Clear user 用 0 填充 用 户 空间 的 一 个 内 存 区 域 





动态 地 址 检查 :修正 代码 


正如 前 面 所 看 到 的 , access_ok() 宏 对 系统 调用 以 参数 传递 来 的 线性 地 址 的 有 效 性 只 i 
行 粗 略 检 查 。 该 检查 只 保证 用 户 态 进程 不 会 试图 侵扰 内 核 地 址 空间 。 但 是 ,由 参数 传递 
的 线性 地 址 依然 可 能 不 属于 进程 地 址 空间 。 在 这 种 情况 下 , 当 内 核 试图 使 用 任何 这 种 错 
误 地 址 时 ， 将 会 发 生 缺 页 异常 。 

在 撕 述 内 核 如 何 检 而 这 种 错误 之 前 ,我们 先 说 明 一 下 在 内 枝 态 引起 缺 页 异常 的 四 种 情况 。 
这 些 情况 必须 由 缺 页 异 沉 处 理 程序 来 区 分 ， 因 为 不 同情 况 采 取 的 操作 很 不 相同 : 


1. 内核 试图 访问 属于 进程 地 址 空间 的 页 , 但 是 , 或 者 是 相应 的 页 框 不 存在 , 或 者 是 内 
核 试 图 去 写 一 个 只 读 页 ,在 这 些 情况 下 , 处 理 程序 必须 分 配 和 初始 化 一 个 新 的 页 杠 
(参见 第 九 章 “请 求 调 页 ”和 “ 写 时 复制 ”两 节 )。 
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2. ”内 核 寻 址 到 属于 其 地 址 空间 的 页 ,但 是 相应 的 页 表 项 还 没有 被 初始 化 (参见 第 九 章 
“处 理 非 连 续 内 存 区 访问 ”一 节 )。 在 这 种 情况 下 , 内 核 必须 在 当前 进程 页 表 中 适当 
地 建立 一 些 表 项 。 


3.， 某 一 内 核 函数 包含 编程 错误 ， 当 这 个 函数 运行 时 就 引起 异常 , 或 者 , 可 能 由 于 瞬时 
的 硬件 错误 引起 异常 。 当 这 种 情况 发 生 时 , 处 理 程序 必须 执行 一 个 内 核 漏 洞 (参见 
第 九 章 的 “处 理 地 址 空间 以 外 的 错误 地 址 ”一 节 )。 


4. 本章 所 讨论 的 一 种 情况 : 系统 调用 服务 例 程 试图 读 写 一 个 内 存 区 , 而 该 内 存 区 的 地 
址 是 通过 系统 调用 参数 传递 来 的 ， 但 却 不 属于 进程 的 地 址 空间 。 


通过 确定 错误 的 线性 地 址 是 否 属于 进程 所 拥有 的 线性 地 址 区 间 , 缺 页 处 理 程序 可 以 很 容 
易 地 识别 第 一 种 情况 。 通 过 检查 相应 的 主 内 核 页 表 是 否 包含 一 个 映射 该 地 址 的 非 空 项 也 
可 以 检测 第 二 种 情况 。 下 面 让 我 们 解释 一 下 缺 页 处 理 程序 如 何 区 分 另外 两 种 情况 。 


异常 表 

决定 缺 页 的 来 源 关 键 在 于 内 核 使 用 有 限 的 范围 访问 进程 的 地 址 空间 .只 有 前 一 节 描 述 的 
少数 函数 和 宏 用 来 访问 进程 的 地 址 空间 ， 因 此 ， 如 果 异 常 是 由 一 个 无 效 的 参数 引起 的 ， 
那么 , 引起 异常 的 指令 一 定 包含 在 其 中 的 一 个 函数 中 或 由 展开 的 宏 产 生 。 这 些 对 用 户 空 
旧 寻 址 的 指令 数量 是 非常 少 的 。 


因此 , 把 访问 进程 地 址 空间 的 每 条 内 核 指令 的 地 址 放 到 一 个 叫 异 常 表 (exception table) 
的 结构 中 并 不 用 费 太 多 功夫 。 如 果 我 们 成 功 地 做 到 这 点 ,其 他 的 事情 就 很 容易 了 。 当 在 
内 核 态 发 生 缺 页 异常 时 , do_page_fault () 处 理 程 序 检查 异常 表 : 如 果 表 中 包含 产生 异 
常 的 指令 地 址 ,那么 这 个 错误 就 是 由 非法 的 系统 调用 参数 引起 的 ， 否则， 就 是 由 某 一 更 
严重 的 bug 引起 的 。 


Linux 定义 了 几 个 异常 表 。 主 要 的 异常 表 在 建立 内 核 程 序 映 像 时 由 C 编译 器 自动 生成 。 
它 存 放 在 内 核 代码 段 的 __ex_table 节 ,其 起 始 与 终止 地 址 由 C 编 译 器 产生 的 两 个 符号 


__start ex table 积 .、_ stop__ ex table 来 标识 。 


此 外 ,每 个 动态 装载 的 内 核 模 块 〈 参 看 附录 二 ) 都 包含 有 自己 的 局 部 异常 表 。 这 个 表 是 
在 建立 模块 映像 时 由 C 编 译 器 自动 产生 的 , 当 把 模块 插入 到 运行 中 的 内 核 时 把 这 个 表 装 
入 内 存 。 


每 一 个 异常 表 的 表 项 是 一 个 exception_table_entry 结构 ， 它 有 两 个 字 上 段 : 


i1nsn 


访问 进程 地 址 空间 的 指令 的 线性 地 址 。 


4 各 十 刘 


一 一 一 一 一 一 -一 qi 一 一 一 < 


fixup 
当 存 放 在 insn 单 元 中 的 指令 所 触发 的 缺 页 异常 发 生 时 ，fixup 就 是 要 调用 的 汇编 
语言 代码 的 地 址 。 


修正 代码 由 几 条 汇编 指令 组 成 , 用 以 解决 由 缺 页 异常 所 引起 的 问题 。 在 后 面 我 们 将 会 看 
到 , 修正 通常 由 插入 的 一 个 指令 序列 组 成 , 这 个 指令 序列 强制 服务 例 程 返回 一 个 出 错 码 
给 用 户 态 进程 。 这 些 指令 通常 在 访问 进程 地 址 空间 的 同一 国 数 或 宏 中 定义 ; 由 C 编译 器 
把 它们 放置 在 内 核 代 码 段 的 一 个 叫 作 .fixup 的 独立 部 分 。 


search_exception_tables () 国 数 用 来 在 所 有 异常 表 中 查找 一 个 指定 地 址 : 车 这 个 地 
址 在 某 一 个 表 中 ， 则 返回 指向 相应 exception_table_entry 结构 的 指针 ;， 否则， 返回 
NULL。 因 此 ， 和 缺 页 处 理 程序 do_page_fault () 执 行 下 列 语句 : 


if ({fixup = search exception tables(regs->eip))) { 
regs->eip = fixup->fixup; 
return 1; 


} 


regs->eip 字 段 包 含 异 常 发 生 时 保存 到 内 核 态 栈 eip 寄存 戎 中 的 值 。 如 果 eip 寄 存 
姓 (指令 指针 ) 中 的 这 个 值 在 某 个 异常 表 中 , ao_page_fault () 就 把 所 保存 的 值 替换 
为 search_exception_tables() 的 返回 地 址 。 然 后 缺 页 处 理 程序 终止 ,被 中 断 的 程 
序 以 修正 代码 的 执行 而 恢复 运行 。 


生成 异常 表 和 修正 代码 


GNU 汇编 程序 (Assembler) 伪 指 令 .section 允许 程序 员 指 定 可 执行 文件 的 哪 部 分 包 
含 紧 接着 要 执行 的 代码 。 我 们 将 在 第 二 十 章 中 看 到 ， 可 执行 文件 包括 一 个 代码 段 ， 这 个 
代码 段 可 能 又 依次 被 划分 为 节 。 因 此 ， 下 面 的 汇编 指令 在 异常 表 中 加 入 一 个 表 项 ，“a” 
属性 指定 必须 把 这 一 节 与 内 核 映 像 的 剩余 部 分 一 块 加 载 到 内 存 中 。 

.Section ex_table, "a" 


.long faulty_ instruction address, fixup_ code address 
.previous 


.previous 伪 指 令 强 制 汇编 程序 把 紧 接 着 的 代码 插入 到 过 到 上 一 个 .section 伪 指令 时 
激 笑 的 节 。 

让 我 们 再 看 一 下 前 面 论 及 过 的 __ get_user_11) 、_get user 2() 和 __get_user 41() 
函数 。 访 问 进程 地 址 空间 的 指令 用 1、2 和 3 标记 。 


__get_user 1: 


Wy 


系统 调用 


] : 





mOVZD1L (和 eaX)j ， Sedx 


[| 


__get_user_2: 


六 


[se 
mOVZWw1 -1l($%eax), Sedx 


| 


__get_ user_4: 


了 


[...] 
movl1l -3(%eax), Sedx 


lss 


bad get _user: 


XoOrl Sedx, %edx 
movl S-EFAULT, $%Seax 
ret 


.Section ex table,"a" 


.long lb, baqd get_ user 
.long 2b, bad get_ user 
.long 3b, bad get_ user 


.Previous 
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每 个 异常 表 项 由 两 个 标号 组 成 。 第 一 个 是 一 个 数字 标号 , 其 前 组 b 表 示 标 号 是 “向 后 的 ”， 
换 句 话说， 标号 出 现在 程序 的 前 -- 行 。 修 正 代 码 对 这 三 个 国 数 是 公用 的 ， 且 被 标记 为 
bad_get_user。 如 果 缺 页 异 贡 是 由 标号 1、2 或 3 处 的 指令 产生 的 ， 那 么 修正 代码 就 执 
行 。 在 bad_get_user 处 的 修正 代码 给 发 出 系统 调用 的 进程 只 简单 地 返回 一 个 出 错 码 
-EFAULT, 


其 他 作用 于 用 户 态 地 址 空间 的 内 核 钠 数 也 使 用 修正 代码 技术 。 再 看 下 一 个 例子 ， 
strlen_user (string) 宏 。 该 宏 或 者 返回 系统 调用 中 作为 参数 传递 的 Lnull 结束 的 字 
符 串 string 的 长 度 ， 或 在 出 错时 返回 0。 这 个 宏 本 质 上 产生 以 下 的 汇编 指令 ; 


] : 


mOV]1 $0, %®eax 

movl SOx7fffffff, %ecx 
mOV] ®Secx, %ebx 

mov1 String, $%Sedi 
repne; scasb 

subl Yecx, $ebx 

moOv] ®eDbx, $®eax 


.Section .fixup, "ax" 


2 


XOrl Seax, Seax 
jmp lb 


.Previous 
.Section _ _ex tLable,"a" 


.long Ob, 2b 


.Previous 


ecx 和 和 ebx 寄存 器 的 初始 值 设 为 0x7fffffff， 表示 用 户 态 地 址 空间 字符 串 的 最 大 长 度 。 
repnei scasb 汇 编 指 令 循环 扫描 由 edi 指向 的 字符 串 , 在 eax 中 查找 值 为 0 的 字符 ( 字 
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符 串 的 结束 标志 \0 字符 ) 。 因 为 每 一 次 循环 scasb 都 将 ecx 减 1， 所 以 eax 中 最 后 存 
放 的 是 在 字符 串 中 所 扫描 过 的 字 节 总 数 (也 就 是 字符 串 的 长 度 )。 


这 个 安 的 修正 代码 被 插入 . fixup 市 。“ax” 属性 指定 这 一 节 必 须 加 载 到 内 存 并 包含 可 执 
行 代码 。 如 果 缺 页 异常 是 由 标号 为 0 的 指令 引起 ,就 执行 修正 代码 ， 它 只 简单 地 把 eax 
置 为 0 一 一 因此 强制 该 宏 返 回 一 个 出 错 码 0 而 不 是 字符 串 长 度 一 一 然后 跳 转 到 标号 1， 
即 宏 之 后 的 相应 指令 。 


第 二 个 .section 指 令 在 .__ ex_table 中 增加 一 个 表 项 ,内容 包 括 repne; scasb 指 令 的 
地 址 和 相应 的 修正 代码 的 地 址 。 


内 核 封 效 例 程 


尽管 系统 调用 主要 由 用 户 态 进程 使 用 , 但 也 可 以 被 内 核 线程 调用 , 内 核 线程 不 能 使 用 库 
国 数 。 为 了 简化 相应 封装 例 程 的 声明 ，Linux 定义 了 7 个 从 _syscal10 到 _syscal16 的 
一 组 宏 。 


每 个 宏 名 字 中 的 数字 0~6 对 应 着 系统 调用 所 用 的 参数 个 数 (系统 调用 号 除外 )。 也 可 以 
用 这 些 宏 来 声明 没有 包含 在 libc 标准 库 中 的 封装 例 程 (例如 ， 因 为 Linux 系统 调用 还 未 
受到 库 的 支持 )。 然 而 ， 不 能 用 这 些 宏 来 为 超过 6 个 参数 (系统 调用 号 除外 ) 的 系统 调用 
或 产生 非 标 准 返 回 值 的 系统 调用 定义 封装 例 程 。 


每 个 宏 严 格 地 需要 2+2 x n 个 参数 ,n 是 系统 调用 的 参数 个 数 。 前 两 个 参数 指明 系统 调 
用 的 返回 值 类 型 和 名 字 ; 每 一 对 附加 参数 指明 相应 的 系统 调用 参数 的 类 型 和 名 字 。 因 此 ， 
以 fork() 系 统 调用 为 例 ， 其 封装 例 程 可 以 通过 如 下 语句 产生 : 


_syscall0 (int, fork,) 
而 write() 系 统 调用 的 封装 例 程 可 以 通过 如 下 语句 产生 : 

_syscall3 (int,write, int,fd,const char *,buf,unsigned int,count) 
在 后 一 种 情况 下 ， 可 以 把 这 个 宏 展开 成 如 下 的 代码 : 


int writel(int fd,const char * buf,unsigned int count) 


{ 


long _ _res; 
asm("int S$Ox80" 
: "=a"” ({__res) 
"0" {(__NR write), "b" {(long})fad), 
"c" {({(long})buf}, "d" ((long})count))}:; 
if ((unsigned long)_ _res >= (unsigned long)}-129) 1 
errno = -_ _res; 


_res = -1; 


系统 调用 





} 


return (int) __res;: 
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__NR_write 宏 来 目 _syscall3 的 第 二 个 参数 ， 它 可 以 展开 成 write() 的 系统 调用 号 。 
当 编 译 前 面 的 国 数 时 ， 生 成 下 面 的 汇编 代码 : 


write: 


en er 


pusShl ebx 

movl] 8'(.%esp), %®ebx 
moOVv1 12(%esp), $Yecx 
movl i16(®%esp), Sedx 
movl $4, Seax 

int SOX80 

Cmpl1 S$-125, %eax 
jbe .Ll 

negl 下 ea 其 

moOv] geaXx，errnoc 
mOV] $-1], 第 eaX 

PoDP1 %®ebx 


;将 ebx 推 人 堆栈 

; 将 第 -个 参数 放 和 人 ebx 
; 将 第 二 个 参数 放 和 人 ecx 
; 将 第 三 个 参数 放 人 edx 
;将 __NR write 放 作 eax 
; 调用 系统 调用 

; 检测 返回 码 

; 如 无 错 则 跳 转 

; 求 eax 的 补 码 

; 将 结果 放 入 errno 

; 将 eax 置 为 一 1 

; 从 堆栈 弹出 ebx 

; 返回 调用 程序 


注意 write () 图 数 的 参数 是 如 何在 执行 int $0x80 指 令 前 被 装 入 到 CPU 寄存 器 中 的 。 
如 果 eax 中 的 返回 值 在 -1~ 一 129 之 间 ， 则 必须 被 解释 为 出 错 码 (内核 假定 在 include/ 
generic /errno.h 中 定义 的 最 大 出 错 码 为 129)。 如 果 是 这 种 情况 ， 封 装 例 程 就 在 errno 
中 存放 -eax 的 值 并 返回 值 -1 否则 ， 返 回 eax 中 的 值 。 








信号 在 最 早 的 Unix 系 统 中 即 被 ?31 人, 用 于 在 用 户 态 进程 问 通信 。 内核 也 用 信号 通知 进程 
系统 所 发 生 的 事件 。 信 号 已 有 30 多 年 的 历史 ， 但 只 有 很 小 的 变化 。 


本 章 的 第 一 部 分 详细 考察 Linux 内 核 如 何 处 理 信 号 ， 然 后 ， 我 们 讨论 几 个 允许 进程 交换 
言 号 的 系统 调用 。 


言 号 的 作用 

言 写 (Signal) 是 很 短 的 消息 ， 可 以 被 发 送 到 一 个 进程 或 一 组 进程 。 发 送 给 进程 的 唯一 信 
息 通 党 是 一 个 数 ， 以 此 来 标识 信号 。 在 标准 信号 中 ， 对 参数 、 消 息 或 者 其 他 相 随 的 信息 
设 有 给 予 关 注 。 


名 字 前 缀 为 SIG 的 一 组 宏 用 来 标识 信和 号。 在 前 几 章 中 , 我 们 已 经 涉及 到 几 个 信和 号。 例如 ， 
在 第 三 章 的 “clone()、fork() 及 vfork() 系 统 调 用 ”一 节 中 已 提 及 到 的 SIGCHLD 安 。 在 
Linux 中 ， 这 个 宏 扩 展 为 值 17， 当 某 一 子 进程 停止 或 终止 时 ，SIGCHLD 宏 产 生发 送 给 父 
进程 的 信号 标识 符 。SIGSEGV 宏 扩 展 为 值 11, 在 第 九 章 的 “ 缺 页 异常 处 理 程序 ”一 节 中 
已 提 及 到 : 当 一 个 进程 引用 无 效 的 内 存 时 ，SIGSEGV 宏 产 生发 送 给 进程 的 信号 标识 符 。 
使 用 信号 的 两 个 主要 目的 是 ， 

。 “让 进程 知道 已 经 发 生 了 一 个 特定 的 事件 。 

。 ”强迫 进程 执行 它 自己 代码 中 的 信号 处 理 程 序 。 
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当然 , 这 两 个 目的 不 是 互 斥 的 , 因为 进程 经 常 通过 执行 一 个 特定 的 例 程 来 对 某 一 事件 做 


出 反应 。 


表 11-1 列 出 了 基于 80x86 的 Linux 2.6 所 处 理 的 前 31 个 信号 ( 像 SIGCHLD 或 SIGSTOP 
这 样 的 一 些 信号 是 与 体系 结构 相关 的 ; 此 外 , 像 SIGSTKFLT 这 样 的 一 些 信号 只 为 特定 
的 体系 结构 而 定义 ) 。 缺 省 操作 的 含义 将 在 下 一 节 描 述 。 


表 11-1: Linux/i386 中 的 前 31 个 信号 


编号 


DooauwmAwm nb 一 


信和 号 名 称 
SIGHUP 
SIGINT 
SLCOULET 
号 开工 五 五 
SIGTRAP 
SIGABRT 
SIGIOT 
SIGBUS 
SIGHPE 
SIGKILDL 
SIGUSR]1 
SIGSEGY 
STGUSR2 
STGPILDE 
SIGALRM 


SIGTERM 


SLGSTKELT 


SIGEHLD 


SIGCONT 
SILOTOP 
SS 下 GT 下 
与 工 全 开工 工具 
SIGTTOU 
SIGURG 





缺 省 操作 
Terminate 
Terminate 
Dump 
Dump 
Dump 
Dump 
Dump 
Dump 
Dump 
Terminate 
Terminate 
Dump 
Terminate 
Terminate 
Terminate 
Terminate 
Terminate 


lgnore 


Continue 
Stop 
Stop 
Stop 
Stop 


Ignore 


解释 

挂 起 控制 终端 或 进程 
来 自 键盘 的 中 断 

从 键盘 退出 

非法 指令 
跟踪 的 断 点 

异常 结束 

等 价 于 SIGABRT 
总 线 错 误 

浮 点 异常 

强迫 进程 终止 

对 进程 可 用 

无 效 的 内 存 引 用 

对 进程 可 用 

器 无 读者 的 管道 写 
实时 定时 器 时 钟 
进程 终止 

协 处 理 器 栈 错误 

子 进程 停止 、 结 束 或 在 
被 跟踪 时 获得 信号 
如 果 已 停止 则 恢复 执行 
停止 进程 执行 

从 tty 发 出 停止 进程 
后 台 进 程 请 求 输入 
后 台 进 程 请 求 输出 
套 接 字 上 的 紧急 条 件 


O 
中 
x 


由 砍 剖 巴 和 和 和 并 


由 和 各部 和 癌 计 针尖 


Pi 


史 铝 况 和 各部 
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表 11-1; Linux/i386 中 的 前 31 个 信号 ( 续 ) 


编号 ”信号 名 称 
24 SIGXCPU 
25 SIGXFSZ 
26 SIGVTALRM 
27 SIGPROF 
28 SIGWINCH 
29 SIGIO 

29 SIGPOLL 
30 SIGPWR 

31 SIGSYS 

31 SIGUNUSED 


缺 省 操作 
Dump 
Dump 
Terminate 
Terminate 
lgnore 
Terminate 
Terminate 
Terminate 
Dump 
Dump 


解释 

超过 CPU 时 限 
超过 文件 大 小 的 限制 
虚拟 定时 部 时 钟 
概况 定时 郑 时 钟 
窗口 调整 大 小 
MO 现在 可 能 发 生 
等 价 于 SIGIO 
电源 供给 失效 
坏 的 系统 调用 
等 价 于 SIGSYS 


OO 
0 
x 


呈 叫 叫 咬 有 也 呈 史 吓 呆 基 


除了 在 这 张 表 中 描述 的 常规 信号 (regular signal) 外 ,， POSIX 标准 还 引入 了 一 类 新 的 信 
号 ， 叫 做 实时 信和 号 (real-time signal)， 在 Linux 中 它们 的 编码 范围 为 32~64。 它 们 与 
常规 信号 有 很 大 的 不 同 ,因为 它们 必须 排队 以 便 发 送 的 多 个 信号 能 被 接收 到 。 另 一 方面 ， 
同 种 类 型 的 常规 信号 并 不 排队 : 如 果 一 个 常规 信号 被 连续 发 送 多 次 , 那么 ， 只 有 其 中 的 
一 个 发 送 到 接收 进程 。 尽管 Linux 内 核 并 不 使 用 实时 信号 ， 它 还 是 通过 几 个 特定 的 系统 
调用 完全 实现 了 POSIX 标准 。 


许多 系统 调用 允许 程序 员 发 送信 号 ， 并 决定 他 们 的 进程 如 何 响应 所 接收 的 信号 。 表 11- 
2 简洁 地 描述 了 这 些 系统 调用 , 更 详细 的 内 容 将 在 后 面 “与 信号 处 理 相 关 的 系统 调用 ”一 


方 中 描 述 。 


表 11-2; 与 信号 相关 的 最 重要 的 系统 调用 


系统 调用 
kill() 
tkill() 
tgkill() 
sigaction!() 
signal () 
sigpending {) 
sigprocmask () 


sigsuspend() 


说 明 


向 线程 组 发 送 一 个 信号 

向 进程 发 送 一 个 信号 

向 一 个 特定 线程 组 中 的 进程 发 送信 号 
改变 与 信号 相关 的 操作 

类 似 于 sigaction() 

检查 是 否 有 挂 起 的 信号 
修改 阻塞 信号 的 集合 


等 待 一 个 信号 





表 11-2: 与 信号 相关 的 最 重要 的 系统 调用 ( 续 ) 


系统 调用 说 明 

rt_sigaction() 改变 与 实时 信号 相关 的 操作 
rt_sigpending () 检查 是 否 挂 起 实时 信号 
rt_sigprocmask () 修改 阻塞 的 实时 信号 的 集合 
rt_sigqueueinfo!() 向 线程 组 发 送 一 个 实时 信和 号 
rt_sigsuspend() 等 待 一 个 实时 信号 

rt_sigt imedwait () 类 似 于 rt_sigsuspend () 


信号 的 一 个 重要 特点 是 它们 可 以 随时 被 发 送 给 状态 经 常 不 可 预知 的 进程 ,发 送 给 非 运行 
进程 的 信号 必须 由 内 核 保存 ， 直 到 进程 恢复 执行 。 阻 塞 一 个 信号 (后面 描述 ) 要 求 信 号 
的 传递 拖延 , 直到 随后 解除 阻塞 , 这 使 得 信号 产生 一 段 时 间 之 后 才能 对 其 传递 这 一 问题 
变 得 更 加 严重 。 


因此 ， 内 核 区 分 信号 传递 的 两 个 不 同 阶段 : 


内 核 更 新 目标 进程 的 数据 结构 以 表示 一 个 新 信号 已 被 发 送 。 
信号 传递 
内 核 强 迫 目 标 进程 通过 以 下 方式 对 信号 做 出 反应 :或 改变 目标 进程 的 执行 状态 ,或 
开始 执行 一 个 特定 的 信号 处 理 程序 ， 或 两 者 都 是 。 
每 个 所 产生 的 信号 至 多 被 传递 一 次 。 信 号 是 可 消费 资源 : 一 旦 它们 已 传递 出 去 ， 进 程 描 
述 符 中 有 关 这 个 信号 的 所 有 信息 都 被 取消 。 


已 经 产生 但 还 没有 传递 的 信号 称 为 挂 起 信号 (pending signal)。 任何 时 候 ， 一 个 进程 仅 

存在 给 定 类 型 的 一 个 挂 起 信号 , 同一 进程 同 种 类 型 的 其 他 信号 不 被 排队 , 只 被 简单 地 丢 

弃 。 但 是 ， 实 时 信号 是 不 同 的 : 同 种 类 型 的 挂 起 信号 可 以 有 好 几 个 。 

一 般 来 说 ， 信 号 可 以 保留 不 可 预知 的 挂 起 时 间 。 必 须 考虑 下 列 因素 : 

。 ”信号 通常 只 被 当前 正 运 行 的 进程 传递 ( 即 由 current 进程 传递 )。 

。 ”给 定 类 型 的 信号 可 以 由 进程 选择 性 地 阻塞 (blocked) (参见 “修改 阻塞 信号 的 集合 ” 
一 市 )。 这 种 情况 下 ， 在 取消 阻塞 前 进程 将 不 接收 这 个 信号 。 

。 “ 当 进 程 执行 一 个 信号 处 理 程 序 的 函数 时 , 通常 “屏蔽 ”相应 的 信号 , 即 自 动 阻塞 这 
个 信号 直到 处 理 程 序 结束 。 因 此 , 所 处 理 的 信号 的 另 一 次 出 现 不 能 中 断 信 号 处 理 程 
序 ， 所 以 ， 信 号 处 理 函 数 不 必 是 可 重 入 的 。 
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尽管 信号 的 表示 比较 直观 ， 但 内 核 的 实现 相当 复杂 。 内 核 必须 : 


记 住 每 个 进程 阻塞 哪些 信号 。 

当 从 内 核 态 切换 到 用 户 态 时 , 对 任何 一 个 进程 都 要 检查 是 否 有 一 个 信号 已 到 达 。 这 
几乎 在 每 个 定时 中 断 时 都 发 生 (大 约 每 毫秒 发 生 一 次 )。 

确定 是 否 可 以 忽略 信号 。 这 发 生 在 下 列 所 有 的 条 件 都 满足 时 : 


一 目标 进程 没有 被 另 一 个 进程 跟踪 (进程 描述 符 中 ptrace 字 段 的 PT_PTRACED 
标志 等 于 0) ( 注 1)。 

一 信号 没有 被 目标 进程 阻塞 。 

一 信号 被 目标 进程 忽略 (或 者 因为 进程 已 显 式 地 忽略 了 信号 , 或 者 因为 进程 没有 
改变 信和 号 的 缺 省 操作 且 这 个 缺 省 操作 就 是 “忽略 ”) 。 

处 理 这 样 的 信号 , 即 信号 可 能 在 进程 运行 期 间 的 任 一 时 刻 请 求 把 进程 切换 到 一 个 信 

号 处 理 函 数 ， 并 在 这 个 函数 返回 以 后 恢复 原来 执行 的 上 下 文 。 ， 


此 外 ，Linux 必须 考虑 BSD 和 System V 所 采用 的 不 同 的 信号 语义 ， 而 且 ， 还 必须 与 相 
当 麻 烦 的 POSIX 标准 相 兼 容 。 


传递 信号 之 前 所 执行 的 操作 
进程 以 三 种 方式 对 一 个 信号 做 出 应 答 ; 





1. ” 显 式 地 忽略 信号 。 
2. ”执行 与 信号 相关 的 缺 省 操作 (参见 表 11-1)。 由 内 核 预 定义 的 缺 省 操作 取决 于 信号 
的 类 型 ， 可 以 是 下 列 类 型 之 一 : 
Terminate 
进程 被 终止 ( 杀 死 )。 
Dump 
进程 被 终止 ( 杀 死 ), 并 且 , 如 果 可 能 , 创建 包含 进程 执行 上 下 文 的 核心 转 储 文 
件 ， 这 个 文件 可 以 用 于 调试 。 
lgnore 
言 号 被 忽略 。 
‘EL 如 果 一 个 进程 正在 被 跟 踊 时 接收 到 一 个 信号 ,内 核 就 个 止 这 个 进程 ， 并 向 跟踪 进 程 发 送 


一 个 STGCHLD 信 号 以 通知 它 一 下 。 跟踪 进 程 又 可 以 使 用 SIGCOUNT 信 号 重新 恢复 被 跟 
踪 进 程 的 执行 。 
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Stop 
进程 被 停止 , 即 把 进程 置 为 TASK_STOPPED 状 态 《 参 见 第 三 章 的 “进程 状态 - 
es 

Continue 


如 果 进 程 被 停止 (TASK_STOPPED)， 就 把 它 置 为 TASK_RUNNING 状态 。 
3， 通过 调用 相应 的 信号 处 理 函 数 捕 狭 信号。 


和 注意, 被 对 一 个 信号 的 阻塞 和 忽略 是 不 同 的 : 只 要 信号 被 阻塞 ， 它 就 不 被 传递 ; 只 有 在 
信号 解除 阻塞 后 才 传 递 它 。 而 一 个 被 忽略 的 信号 总 是 被 传递 ， 只 是 没有 进一步 的 操作 。 


SIGKILL 和 SIGSTOP 信 和 号 不 可 以 被 显 式 地 忽略 、 捕 获 或 阻塞 ， 因此, 通常 必须 执行 它 
们 的 缺 省 操作 。 因 此 ， SIGKILL 和 SIGSTOP 人 允许 具有 适当 特权 的 用 户 分 别 终 止 并 停 
止 任何 进程 ( 注 2)， 不 管 程序 执行 时 采取 怎样 的 防御 措施 。 


如 果 信 号 的 传递 会 引起 内 核 杀 死 一 个 进程 ， 那么 这 个 信号 对 该 进程 就 是 致命 的 。 
SIGKILL 信 号 总 是 致命 的 ; 而 且 , 缺 省 操作 为 Terminate 的 每 个 信号 , 以 及 不 被 进程 捕 
获 的 信号 对 该 进程 也 是 致命 的 。 注意 ,如 果 一 个 被 进程 所 捕获 的 信号 ， 其 对 应 的 信号 处 
理 函 数 终 止 了 这 个 进程 ,那么 这 个 信号 就 不 是 致命 的 ,因为 进程 自己 选择 了 终止 ， 而 不 
是 被 内 核 杀 死 。 


POSIX 信号 和 多 线程 应 用 
POSIX 1003.1 标准 对 多 线程 应 用 的 信号 处 理 有 一 些 严 格 的 要 求 : 


。 ”信号 处 理 程序 必须 在 多 线程 应 用 的 所 有 线程 之 间 共 享 ; 不 过 ,每 个 线程 必须 有 自己 
的 挂 起 信号 掩 码 和 阻塞 信号 掩 码 。 

。 ”POSIX 库 函 数 kil1() 和 sigqueue()( 见 稍 后 “与 信号 处 理 相 关 的 系统 调用 ”一 
节 ) 必须 同 所 有 的 多 线程 应 用 而 不 是 某 个 特殊 的 线程 发 送信 号 。 所 有 由 内 核 产 生 的 
信号 同样 如 此 (如 ，SIGCHLD、SIGINT 或 SIGQUIT )。 

。 ”每 个 发 送 给 多 线程 应 用 的 信号 仅 传 送 给 一 个 线程 ,这 个 线程 是 由 内 核 在 从 不 会 阻塞 
该 信号 的 线程 中 随意 选择 出 来 的 ，。 

。 ”如 果 向 多 线程 应 用 发 送 了 一 个 致命 的 信号 ,那么 内 核 将 杀 死 该 应 用 的 所 有 线程 ,而 
不 仅仅 是 杀 死 接收 信号 的 那个 线程 。 


注 2: 有 两 个 例外 : 不 可 能 给 进 可 0 (swapper) 发 送信 号 ,而 发 送 给 进程 1 (init) 的 信号 在 捕 
获 到 它们 之 前 也 总 被 丢 译 。 因 此 , 进程 0 永 不 死亡 , 而 进程 1 只 有 当 init 程 序 终 止 时 才 死 
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为 了 避 循 POSIX 标准 ，Linux 内 核 2.6 把 多 线程 应 用 实现 为 一 组 属于 同一 个 线程 组 的 轻 
量 级 进程 (参见 第 三 草 “ 进 程 、 轻 量 级 进程 和 线程 ”一 市 )。 


在 本 章 中 ， 术 语 “ 线 程 组 ” 指 任意 一 种 线程 组 ， 包 括 仅 由 单一 (普通 ) 进程 构成 的 线程 
组 。 例 如 ， 当 我 们 规定 ki11() 能 够 向 线程 组 发 送信 号 时 ， 我 们 的 意思 是 这 个 系统 调用 
也 能 够 器 普 通 进程 发 送信 号 。 我 们 将 使 用 术语 “进程 ”表示 普通 进程 或 轻 量 级 进程 ， 即 
属于 某 个 线程 组 的 特定 成 员 。 


此 外 ， 如 末 一 个 挂 起 信号 被 发 送 给 了 茶 个 特定 进程 ， 那么 这 个 信号 是 私有 的 ; 如 要 被 发 
送 给 了 整个 线程 组 ， 它 就 是 共享 的 。 


与 信号 相关 的 数据 结构 

对 系统 中 的 每 个 进程 来 说 ， 内 核 必 须 跟踪 什么 信号 当前 正在 挂 起 或 被 屏蔽 ， 以 及 每 个 
线程 组 是 如 何 处 理 所 有 信号 的 。 为 了 完成 这 些 操作 ， 内 核 使 用 几 个 从 处 理 器 描述 符 可 
存 取 的 数据 结构 。 最 重要 的 数据 结构 如 图 11-1 所 示 。 


SEC struct struct 
sigpending sigqueue sigqueue 


struct E 
task struct 是 SS 
->” 本 | Se 信号 队列 









struct 
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struct struct 
sigpending sigqueue 


共享 挂 起 
信号 队列 


shared pending 


edpending | 
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图 11-1: 与 信号 处 理 相关 的 最 重要 的 数据 结构 
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与 信号 处 理 相关 的 进程 描述 符 中 的 字段 如 表 11-3 所 示 : 
表 11-3: 与 信号 处 理 相关 的 进程 描述 符 中 的 字段 


类 型 名 称 说 明 

struct signal struct * signal 指向 进程 的 信号 描述 符 的 指针 

struct sighangd struct * sighand 指 癌 进程 的 信号 处 理 程 序 描述 符 的 指针 

sigset_t blocked 被 阻塞 信号 的 掩 码 

sigset_t real_blocked 被 阻塞 信号 的 临时 捧 码 (由 rt_ 
sigt imedwait () 系 统 调用 使 用 ) 

struct sigpending pending 存放 私有 挂 起 信号 的 数据 结构 

unsigned long sas_ss_sp 言 号 处 理 程序 备用 堆栈 的 地 址 

size sas_Sss_Ssize 信号 处 理 程序 备用 堆栈 的 大 小 

int (*) (void *) notifier 指 和 同一 个 函数 的 指针 ， 设 备 驱 动 程序 用 
这 个 困 数 阻塞 进程 的 某 些 信号 

void * notifier_data 指向 notifier 负数 ( 表 中 的 前 一 个 字段 ) 
可 能 使 用 的 数据 

sigset 七 * notifier_mask 设备 驱动 程序 通过 notifier 负数 所 阻塞 
的 信号 的 位 掩 码 


blocked 字段 存放 进程 当前 所 屏蔽 的 信号 。 它 是 一 个 sigset_t 位 数组 ， 每 种 信号 类 型 
对 应 一 个 元 素 : 
typedef struct { 


unsigned long sig[2]; 
} sigset t; 


因为 每 个 无 符号 长 整数 由 32 位 组 成 ， 所 以 在 Linux 中 可 以 声明 的 信号 最 大 数 是 64 
(_NSIG 宕 表示 这 个 值 )。 没 有 值 为 0 的 信号 ,因此 ,信号 的 编号 对 应 于 sigset_t 类 型 
变量 中 的 相应 位 下 标 加 1。1~-31 之 间 的 编号 对 应 于 表 11-1 所 列 出 的 信号 , 而 32 一 64 之 
间 的 编号 对 应 于 实时 信和 号。 


信号 描述 符 和 信号 处 理 程 序 描述 符 

进程 描述 符 的 signal 字段 指向 信号 描述 符 (signal descriptor) 一 一 一 个 signal._. 
struct 类 型 的 结构 , 用 来 跟踪 共享 挂 起 信号 。 实际 上 , 信号 描述 符 还 包括 与 信号 处 理 关 
系 并 不 密切 的 一 些 字段 ， 如 : 每 进程 的 资源 限制 数组 rlim ( 见 第 三 章 “ 进 程 资 源 限制 * 
一 节 ) 、 分 别 用 于 存放 进程 的 组 领头 进程 和 会 话 领头 进程 PID 的 字段 pgrp 和 session 
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( 见 第 三 章 “ 进 程 间 的 关系 ”一 节 )。 实 际 上 ， 就 像 在 第 三 章 “clone()、fork(O 及 vfork() 
系统 调用 ”一 节 所 提 到 的 , 信号 描述 符 被 属于 同一 线程 组 的 所 有 进程 共享 ,也 就 是 被 调 
用 clone () 系 统 调用 (CLONE_THREAD 标志 置 位 ) 创建 的 所 有 进程 共享 ， 因 此 ， 对 属 
于 同一 线程 组 的 每 个 进程 而 言 ， 信 号 描述 符 中 的 字段 必须 都 是 相同 的 。 


言 号 描述 符 中 与 信号 处 理 有 关 的 字段 如 表 11-4 所 示 : 
表 11-4: 信号 描述 符 中 与 信号 处 理 有 关 的 字段 


类 型 名 称 说 明 

atomic 七 count 信号 描述 符 的 使 用 计数 器 

atomic_t live 线程 组 中 活动 进程 的 数量 

wait_queue_ head t wait_chldexit 在 系统 调用 wait4() 中 睡眠 的 进程 的 等 待 
队列 

struct task_struct * curr target 接收 信号 的 线程 组 中 最 后 一 个 进程 的 描述 
符 

struct sigpending shared_pending 存放 共享 挂 起 信号 的 数据 结构 

int group_exit_code 线程 组 的 进程 终止 代码 

struct task struct * group exit task 在 杀 死 整个 线程 组 的 时 候 使 用 

int notify_count 在 杀 死 整个 线程 组 的 时 候 使 用 

int group_stop_count 在 停止 整个 线程 组 的 时 候 使 用 

unsigned int . flags 在 传递 修改 进程 状态 的 信号 时 使 用 的 标志 





除了 信号 描述 符 以 外 ， 每 个 进程 还 引用 一 个 信号 处 理 程 序 描述 从 (signad handler 
deseriplor)， 它 是 一 个 sighand_struct 类 型 的 结构 ， 用 来 描述 每 个 信号 必须 怎样 被 线 
程 组 处 理 。 它 的 字段 在 表 11-5 中 说 明 。 


表 11-5: 信号 处 理 程序 描述 符 的 字段 


类 型 名 称 说 明 

atomic_t count 信号 处 理 程序 描述 符 的 使 用 计数 器 

struct k_sigaction {164] action 说 明 在 所 传递 信号 上 执行 操作 的 结构 数组 
spinlock_t siglock ”保护 信号 描述 符 和 信号 处 理 程 序 描 述 符 的 自 旋 锁 





正如 在 第 三 章 的 “clone()、fork() 及 vfork() 系 统 调用 ”一 节 中 所 提 到 的 , 在 调用 clone () 
系统 调用 时 设置 CLONE_SIGHAND 标 志 , 信号 处 理 程 序 描述 符 就 可 以 由 几 个 进程 共享 。 
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描述 符 的 count 字段 表示 共享 该 结构 的 进程 个 数 。 在 一 个 POSIX 的 多 线程 应 用 中 , 线程 
组 中 的 所 有 轻 量 级 进程 都 引用 相同 的 信和 号 描述 符 和 信和 号 处 理 程序 摘 述 符 。 


sigaction 数据 结构 
一 些 体系 结构 把 特性 赋 给 仅 对 内 核 可 见 的 信和 号。 因此, 信号 的 特性 存放 在 k_sigaction 
结构 中 ，k_sigaction 结 构 既 包含 对 用 户 态 进程 所 隐藏 的 特性 ， 也 包含 大 家 熟悉 的 
sigaction 结 构 ， 该 结构 保存 了 用 户 态 进程 能 看 见 的 所 有 特性 。 实 际 上 , 在 80x86 平 台 
上 , 信号 的 所 有 特性 对 用 户 态 的 进程 都 是 可 见 的 。 因 此 ，k_sigaction 结 构 只 不 过 简化 
为 类 型 为 sigaction 的 单个 sa 结构 ， 该 结构 包含 下 列 字 段 ( 注 3)。 
sa_handler 

这 个 字段 指定 要 执行 操作 的 类 型 。 它 的 值 可 以 是 指向 信和 号 处 理 程序 的 一 个 指针 ， 

SIG_DFL ( 即 值 0， 指 定 执 行 缺 省 操作 )， 或 者 SIG_IGN ( 即 值 1， 指定 忽略 信号 )。 
sa_flags 

这 是 一 个 标志 集 , 指定 必须 怎样 处 理 信号 。 其 中 的 一 些 标志 在 表 11-6 中 列 出 ( 注 4)。 
sa_mask 


这 是 类 型 为 sigset 上 的 变量 ， 指 定 当 运行 信号 处 理 程序 时 要 屏蔽 的 信号 。 
表 11-6: 指定 如 何 处 理 信号 的 一 组 标志 


标志 的 名 称 说 明 

SA_NOCLDSTOP 仅 应 用 于 SIGCHLD， 当 进程 被 停止 时 不 向 父 进程 发 送 
SIGCHLD 信和 号 

SA_NOCLDWAIT 仅 应 用 于 STGCHLD， 当 进程 终止 时 不 创建 伪 死 状态 

GA STGTNEO 为 信号 处 理 程 序 提供 附加 信息 (参见 后 面 “改变 信号 
的 操作 ”一 节 ) 

SA_ONSTACK 为 信号 处 理 程序 的 执行 使 用 一 个 备用 栈 (参见 后 面 
“捕获 信号 ”一 节 ) 

SA_RESTART 自动 地 重新 开始 执行 被 中 断 的 系统 调用 (参见 后 面 


“系统 调用 的 重新 执行 ”一 节 ) 








注 3: 用 户 态 应 用 程序 所 使 用 的 sigaction 结 构 向 signal() 和 sigaction() 系 统 调用 传递 参 
数 ， 它 与 内 核 所 使 用 的 结构 稍 有 不 同 ， 虽 然 本 质 上 它们 存放 相同 的 信息 ， 

注 4: 由 于 历 史 原 因 ,这些 标志 与 irqaction 描 述 符 的 标志 一 样 都 有 相同 的 前 级 “SA _”( 参 见 
第 四 章 的 表 4-7) ， 不 过 这 两 种 标志 和 集合 之 间 没 有 关系 。 
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表 11-6; 指定 如 何 处 理 信号 的 一 组 标志 ( 续 ) 


标志 的 名 称 说 明 
SA_NODEFER, SA_NOMASK 当 执 行 信 号 处 理 程序 时 不 屏蔽 信号 
SA_RESETHAND, 执行 信号 处 理 程序 后 重新 设置 缺 省 操作 


SA_ONESHOT 








挂 起 信和 号 队列 


如 我 们 在 本 章 前 面 的 表 11-2 中 所 见 到 的 ,有 几 个 系统 调用 能 产生 发 送 给 整个 线程 组 的 信 
号 , 如 kill() 和 rt_sigqueueinfo(), 而 其 他 的 一 些 则 产生 发 送 给 特定 进程 的 信号 ,如 
tkill() 和 tgkill()。 


因此 ， 为 了 跟踪 当前 的 挂 起 信号 是 什么 ， 内 核 把 两 个 挂 起 信号 队列 与 每 个 进程 相关 联 : 
。 ”共享 挂 起 信号 队列 , 它 位 于 信号 描述 符 的 shared_pending 字 段 , 存放 整个 线程 组 
的 挂 起 信号 。 
。 ”私有 挂 起 信号 队列 , 它 位 于 进程 描述 符 的 pending 字 段 , 存放 特定 进程 ( 轻 量 级 进 
程 ) 的 挂 起 信号 。 
挂 起 信号 队列 由 sigpending 数据 结构 组 成 ， 它 的 定义 如 下 : 
struct sigpending { 
struct list_ head list,; 


sigset_t signal; 


} 


signal 字段 是 指定 挂 起 信号 的 位 掩 码 ， 而 list 字段 是 包含 sigqueue 数据 结构 的 双向 
链表 的 头 ，sigcueue 的 字段 如 表 11-7 所 示 。 


表 11-7: sigqueue 数据 结构 的 字段 


类 型 名 称 说 明 

struct list head list 链接 挂 起 信号 队列 的 链表 

SpiNlOckK lock 指向 与 挂 起 信号 相应 的 信号 处 理 程序 描述 符 中 siglock 
字段 的 指针 

Int flags Sigqueue 数据 结构 的 标志 

Siginfo_t info 描述 产生 信号 的 事件 

struct user 指向 进程 拥有 者 的 每 用 户 数据 结构 的 指针 ( 见 第 三 章 


USer_struct * “clone()、 forkO 及 vforkO0 系统 调用 ”一 节 ) 








信号 429 





siginfo_t 是 一 个 128 字 市 的 数据 结构 ， 其 中 存放 有 关 出 现 特定 信号 的 信息 。 它 包含 下 
列 字段 : 
Si1_signo 
信号 编号。 
Sli_errno 
引起 信号 产生 的 指令 的 出 错 码 ， 或 者 如 有 果 没 有 错误 则 为 0。 
Si_code 


发 送信 号 者 的 代码 (参见 表 11-8)。 
表 11-8: 最 重要 的 信号 发 送 者 代码 


代码 名 发 送 者 

SI_USER kill() 和 raise()( 参 见 后 面 “与 信号 处 理 相 关 的 系统 调用 ”一 节 ) 
SI_KERNEL 一 般 内 核 国 数 

SI_QUEUE sigqueue() (参见 后 面 “与 信号 处 理 相 关 的 系统 调用 ”一 节 ) 
SI_TIMER 定时 器 到 期 

SI_ASYNCIO 异步 [/O 完成 

_sifijelds 


存放 依赖 于 信号 类 型 的 信息 的 联合 体 。 例 如 , 相对 于 SIGKILE 信 号 的 出 现 , siginfo t 
数据 结构 在 这 里 记录 发 送 者 进程 的 PID 和 UID， 相反 ， 相 对 于 SIGSEGYV 信号 的 出 现 ， 
该 数据 结构 存放 某 个 内 存 地 址 ， 对 该 地 址 的 访问 导致 信号 产生 。 


在 信号 数据 结构 上 的 操作 
内 核 使 用 几 个 函数 和 宏 来 处 理 信号 。 在 下 面 的 描述 中 ，set 是 指向 sigset_t 类 型 变量 
的 一 个 指针 ，nsig 是 信号 的 编号 ，mask 是 无 符号 长 整数 的 位 掩 码 。 


sigemptyset (set) 和 sigfillset (set) 
把 sigset_t 类 型 的 变量 中 的 位 分 别 置 为 0 或 1。 

sigaddset (set,nsig) 和 sigdelset (set,nsig) 
把 nsig 信 号 在 sigset 上 类 型 变量 中 对 应 的 位 分 别 置 为 1 或 0。 实 际 上 , sigaddset () 
简化 为 : 


set->sig[ (nsig - 1) / 32] |= 1lUL << {(nsig - 1) % 32); 
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并 且 把 sigdelset () 简 化 为 . 


set->sig[(nsig - 1) / 32] &= ~(lUL << (nsig - 1) % 32)); 


Sigaddsetmask (set,mask) 和 sigdelsetmask (set,mask) 
把 mask 中 的 位 在 sigset_t 类 型 变量 中 对 应 的 所 有 位 分 别 设置 为 1 或 0。 它 们 仅 用 
于 编号 为 1~32 之 间 的 信号 。 对 应 的 函数 人 简化 为 : 


set->sig{[0] |= mask:; 


和 


Set->sig[0] &= ~mask; 


sigismember (set,nsig) 
返回 nsig 信 号 在 sigset 上 类 型 变量 中 对 应 位 的 值 。 实 际 上 ， 这 个 函数 向 化 为 : 


reture 1 & (set->sig[ (nsig - 1) / 32] >> {{nsig - 1) % 32)1)3 


sigmask (nsig) 
产生 nsig 信 号 的 位 索引 。 换 句 话说 ， 如 果 内 核 需 要 设置 、 清 除 或 测试 一 个 特定 信 
号 在 sigset_t 类 型 变量 中 对 应 的 位 ， 那 么 就 能 通过 这 个 宏 得 到 合适 的 位 。 
sigandsets(d,sl1,s2)、 sigorsets(d,sl,s2) 和 signandsets(d,sl,s2) 
在 sigset_t 类 型 的 sl 和 s2 变 量 之 间 分 别 执行 逻辑 “与 ”、 逻 辑 “ 或 ”及 逻辑 “与 
非 "。 其 结果 保存 在 a 指向 的 sigset_t 类 型 的 变量 中 。 
Sigtestsetmask (set,mask) 
如 果 mask 在 sigset_t 类 型 的 变量 中 对 应 的 任何 一 位 被 设置 ,就 返回 值 1， 否则 返 
回 0。 这 只 用 于 编写 为 1~32 的 信号 。 
siginitset (set,mask) 
用 mask 中 的 位 初始 化 1~32 之 间 的 信号 在 sigset_t 类 型 的 变量 中 对 应 的 低位 , 并 
把 33 一 63 之 间 信 号 的 对 应 位 清 0。 
Slglnltsetlnv(set,Imask) 
用 mask 中 位 的 补 码 初 始 化 1~32 之 间 的 信号 在 sigset_t 类 型 的 变量 中 对 应 的 低 
位 ， 并 把 33 一 63 之 间 信 号 的 对 应 位 置 位 。 
signal_pending (p) 
如 全 *p 进程 描述 符 所 表示 的 进程 有 非 阻塞 的 挂 起 信号 , 就 运 回 值 1 ( 真 ), 否则 返 
回 0 ( 假 )。 该 函数 只 是 通过 检查 进程 的 TIF_SIGPENDING 标志 就 可 实现 。 
recalc_sigpending_tsk(t) 和 recalc_sigpending () 
第 一 个 函数 检查 是 * t 进程 描述 符 所 表示 的 进程 有 挂 起 的 信号 (通过 检查 t+ - 
>pending->signa (字段 )， 还 是 进程 所 属 的 线程 组 有 挂 起 的 信号 (通过 检查 t- 
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>Ssignal->shareq_penqing->signal 字 段 ). 然 后 图 数 把 上 E->threaaQ_infto->flags 
的 TIF_SIGPENDING 标志 置 位 。 轩 数 recalc_sigpenaing() 等 价 于 


recalc_sigpenalng_ tsKkK(current ) 。 


rm_from queue (maskK ,dG) 
从 挂 起 信号 队列 gq 中 删除 与 mask 位 掩 码 相对 应 的 挂 起 信号 。 
flush_sigqueue(q) 
从 挂 起 信号 队列 9 中 删除 所 有 的 挂 起 信号 。 
flush signals (t) 
删除 发 送 给 *t 进程 描述 符 所 表示 的 进程 的 所 有 信号 。 这 是 通过 清除 t - > 
thread_info->flags 中 的 TIF_SIGPENDING 标志 ， 并 在 t->pending 和 t-> 
signal->shared_pending 队 列 上 两 次 调用 fljush_sigqueue() 函 数 来 实现 的 。 
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产生 信号 

很 多 内 核 函 数 都 会 产生 信号 : 它们 完成 信号 处 理 第 一 步 的 工作 (在 前 面 “ 信 号 的 作用 ” 
一 省 中 已 经 描述 )， 即 根据 需要 更 新 一 个 或 多 个 进程 的 描述 符 。 它 们 不 直接 执行 第 二 步 
的 信号 传递 操作 , 而 是 可 能 根据 信号 的 类 型 和 目标 进程 的 状态 唤醒 一 些 进程 ,并 促使 这 
些 进程 接收 信号 。 

当 发 送 给 进程 一 个 信号 时 ， 这 个 信号 可 能 来 自 内 核 , 也 可 能 来 自 另 一 个 进程 。 内核 通过 
对 如 表 11-9 所 示 的 某 个 函数 进行 调用 而 产生 信号。 


表 11-9: 为 进程 产生 信 写 的 内 核 函 数 


昂 数 名 说 明 

senq_sig() 问 单 一 进程 发 送信 和 号 

Sna sig Ci 与 send_sig() 类 似 ， 只 是 还 使 用 siginfo_t 结构 中 的 扩展 信息 

foree. sie() 发 适 既 不 能 被 进程 显 式 包 略 ， 也 不 能 外 进 程 阻 塞 的 信号 

force_sig_info 1) 与 force_sig() 类 似 , 只 是 还 使 用 siginfc 上 结构 中 的 扩展 信息 

force_sig_specific() 与 force_sig() 类 似 ， 但 优化 了 对 SIGSTOP 和 SIGKILL 信号 
的 处 理 

SS tkil1(0) 的 系统 调用 处 理 国 数 〈 参 见 后 面 “ 与 信号 处 理 相 关 的 系 
统 调用 ”一 节 ) 


sys_tgkill{) tgkil1() 的 系统 调用 处 理 明 数 


表 11-9 中 的 所 有 国 数 在 结束 时 都 调用 specific_sena_sig_infof() 国 数 , 下 一 节 将 对 其 
进行 描述 。 


当 一 个 信号 被 发 往 整 个 线程 组 时 ， 这 个 信号 可 能 来 自 内 核 ， 也 可 能 来 自 男 外 一 个 进程 。 
内 核对 如 表 11-10 所 示 的 某 个 函数 进行 调用 产生 这 类 信号 。 


表 11-10: 为 线程 组 产生 信号 的 内 核 函数 


沙 数 名 说 明 

send_group_sig_info() 向 某 一 个 线程 组 发 送信 和 号, 该 线程 组 由 它 的 一 个 成 员 进 程 的 描 
述 符 来 标识 

kill_pg() 向 一 个 进程 组 中 的 所 有 线程 组 发 送信 号 (参见 第 一 章 “ 进 程 管 
理 ” ”有 

kil1_pg_info () 与 Kill_pg () 类似 , 只 是 还 使 用 siginfo_t 结 构 中 的 扩展 信息 

kill_proc() 向 某 一 个 线程 组 发 送信 号 ， 该 线程 组 由 它 的 一 个 成 员 进程 的 
PID 来 标识 

kil1_proc_info() 与 kill_proc() 类 似 , 只 是 还 使 用 siginfo 上 结构 中 的 扩展 信 
息 

sys_kill() kill(0) 的 系统 调用 处 理 国 数 (参见 后 面 “ 与 信号 处 理 相 关 的 系 
统 调用 ”一 节 ) 

Sys_rt_sigqueueinfo() rt_sigqueueinfo!() 的 系统 调用 处 理 函 数 





表 11-10 中 的 所 有 国 数 在 结束 时 都 调用 group_sena_sig_info() 国 数 ， 将 在 后 面 的 
“group-stnd-sig-info() 函 数 ” 一 节 中 对 其 进行 描述 。 


Specific _send_sig_info() 函 数 
specific_senq_sig_info() 国 数 回 指定 进程 发 送信 号 ， 它 作用 于 三 个 参数 : 
Sig 
信号 编号 。 
info 
或 者 是 siginfo_t 表 的 地 址 , 或 者 是 三 个 特殊 值 中 的 一 个 : 0 意味 着 信号 是 由 用 户 


态 进程 发 送 的 ，1 意味 着 是 由 内 核发 送 的 ，2 意味 着 是 由 内 核发 送 的 SIGSTOP 或 
SIGKILL 信号。 


指 同 目标 进程 描述 符 的 指针 。 
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必须 在 关 本 地 中 断 和 已 经 获得 ->sighand->siglock 目 旋 锁 的 情况 下 调用 
specific_send_sig_info() 国 数 。 国 数 执行 下 面 的 步骤 : 


] . 


5. 


检查 进程 是 否 忽 略 信 号 , 如果 是 就 返回 0 (不 产生 信号 )。 当 下 面 的 三 个 忽略 信号 的 
条 件 全 部 满足 时 ， 信 号 就 被 名 略 : 


。 进程 没有 被 跟踪 (t->ptrace 中 的 PT_PTRACED 标志 被 请 0) 
。 ”信号 没有 被 阻塞 (sigismember {&t->blocked，sig) 返 回 0) 


。 或 者 显 式 地 忽略 信号 (t->sighand->action[sig-1] 的 sa_handler 字 上段 等 干 
SIG_IGN), 或 者 隐 仿 地 忽略 信号 (sa_handler 守 7 段 等 于 SIG_DFL 而 且 信 和 号 
是 SIGCONT、 SIGCHLD、 SIGWINCH 或 SIGURG) 


检查 信号 是 否 是 非 实 时 的 (sig<32), 而 且 是 否 在 进程 的 私有 挂 起 信号 队列 上 已 经 有 
另外 一 个 相同 的 挂 起 信号 (sigismember (&t->pending .signal,sig) 返 回 1), 如 
果 是 ， 就 什么 都 不 需要 做 ， 因 此 返回 0。 


调用 send_signal( sig，info, t，&t->pending) 把 信号 添加 到 进程 的 挂 起 信 
号 集合 中 ， 在 下 一 市 将 详细 描述 这 个 函数 。 

如 果 send_signal() 成 功 地 结束 ， 而 且 信 和 号 不 被 阻塞 (sigismember(&t- 
>blocked,sig) 返 回 0)， 就 调用 signal_wake_up() 国 数 通知 进程 有 新 的 挂 起 信 
号 。 随 后 ， 该 函数 执行 下 述 步骤 : 

a， 把 t->thread info->flags 中 的 TIF_SIGPENDING 标 志 置 位 。 


b. 如 果 进 程 处 于 TASK_INTERRUPTIBLE 或 TASK_STOPPED 状 态 , 而 且 信 号 是 
SIGKILL， 就 调用 try_to_wake_up () (参见 第 七 章 “try_to_wake_up(O) 国 数 
“一 节 ) 唤醒 进程 。 


c. 如 果 try_to_wake_up() 返 回 0,， 那 么 说 明 进程 已 经 是 可 运行 的 : 这 种 情况 下 ， 
它 检 查 进 程 是 否 已 经 在 另外 一 个 CPU 上 运行 ， 如 果 是 就 加 那个 CPU 发 送 一 个 
处 理 器 间 中 断 ， 以 强制 当前 进程 的 重新 调度 (参见 第 四 章 “ 处 理 器 间 中 断 的 处 
理 “ 一 布 )。 因 为 在 从 调度 销 数 返回 时 , 每 个 进程 都 检查 是 否 存在 挂 起 信号 , 因 
此 ， 处 理 器 间 中 断 保证 了 目标 进程 能 很 快 注意 到 新 的 挂 起 信号 。 


返回 1 (已 经 成 功 地 产生 信号 )。 


send_signal() 函数 


send_siqnal() 函 数 在 挂 起 信号 队列 中 插入 一 个 新 元 素 , 它 接收 信号 编号 sig.siginfo_t 
数据 结构 的 地 址 info (或 一 个 特殊 编码 ， 见 上 一 - 节 对 specific_senqd sig_info() 的 摘 


述 )、 


目标 进程 描述 符 的 地 址 + 以 及 挂 起 信号 队列 的 地 址 signals 作为 它 的 参数 。 
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函数 执行 下 面 的 步骤 


1. 如果 info 的 值 是 2， 这 个 信号 就 是 SIGKILL 或 SIGSTOP， 而 且 已 经 由 内 核 通 过 
force_sig_specific() 国 数 产 生 : 在 这 种 情况 下 ， 国 数 跳 转 到 第 9 步 ， 内 核 立即 
强制 执行 与 这 些 信号 相关 的 操作 ， 因 此 函数 不 用 把 信号 添加 到 挂 起 信号 队列 中 。 

2. ”如 果 进 程 拥 有 者 的 挂 起 信号 的 数量 (t->user->sigpending) 小 于 当前 进程 的 资源 
限制 (t->signal->rlim[RLIMIT_SIGPENDING] .rlim_cur)， 国 数 就 为 新 出 现 的 
言 写 分 配 sigqueue 数据 结构 。 


dq = kmem cache alloc{siggqueue_cachep, GFP_ ATOMIC):; 


3. ”如 果 进 程 拥有 者 的 挂 起 信号 的 数量 太 多 ,或 者 上 一 步 的 内 存 分 配 失 败 , 就 跳 转 到 第 
9 步 。 


4. 递增 拥有 者 挂 起 信号 的 数量 (t->user->sigpending) 和 t->user 所 指向 的 每 用 
户 数据 结构 的 引用 计数 器 。 


5. 在 挂 起 信号 队列 signals 中 增加 sigaueue 数据 结构 。 


list_adqd taill&q->list, &signals->list)}); 


6. 在 sigqueue 数据 结构 中 填充 表 siginfo 上 。 


It ((unsigneaQ long)}info == 0) { 
q->info.si_signo = sig; 
dq->info,.si_errno = 0; 


q->info.si code = SI_USER: 
q->info._sifields. kill..piqd 
gq->info._sifields.. kill._uid 


current->pid; 
Current ->uid;: 


} else if ((unsigned long})info == 1) i 
dq->info.si_signo = sig: 
q->info.si_errno = 0; 


dq~->info.si_code = SI_KERNEL, 

dq->info._sifields.._kill._pid 

dq->info._sifields._kill._uid 
} else 

Copy_siginfo(&q->info, info); 


Tl i 
C 


copy_siginfo () 国 数 复制 由 调用 者 传递 的 siginfo 上 t 表 。 
7. 把 队列 位 掩 码 中 与 信号 相应 的 位 置 1 : 
sigaddset (&signals->signal, sig); 
8. ”返回 0; 说 明 信 和 号 已 被 成 功 地 追加 到 挂 起 信号 队列 中 。 


9. 此 时 , 不 再 阿 信 号 挂 起 队列 中 增加 元 素 , 因为 已 经 有 太 多 的 挂 起 信号 , 或 已 经 没有 
可 以 分 给 sigqueue 数 据 结 构 的 空间 空间 , 或 者 信号 已 经 由 内 核 强 制 立 即 发 送 。 如 
果 信 号 是 实时 的 ， 并 已 经 通过 内 核 函 数 发 送 给 队列 排队 ， 则 seng_signal () 图 数 
返回 错误 代码 -EAGAIN: 





If {Sig>=32 && info g&& (unslgnead long) info != 1 && 
info->si_code != SI_USER) 
return -EAGAIN; 


10. 设置 队列 的 位 掩 码 中 与 信号 相关 的 位 : 


sigaddset {gsignals->signal, sig}), 


11. 返回 0: 即使 信号 没有 被 追加 到 队列 中 ， 挂 起 信号 掩 码 中 相应 的 位 也 被 设置 。 


即使 在 挂 起 队列 中 没有 空间 存放 相应 的 挂 起 信号 ,让 目标 进程 能 接收 信号 也 是 至 关 重 要 
的 ,假设 一 个 进程 正在 消耗 过 多 内 存 的 情形 。 内核 必须 保证 即使 没有 空 闪 内 存 , kill() 
系统 调用 也 能 够 成 功 执行 ,否则 ,系统 管理 员 就 没有 机 会 通过 终止 有 害 进 程 来 恢复 系统 。 


group_send_sig_info() 函 数 
groupP_send_sig_info() 国 数 癌 整个 线程 组 发 送信 号 。 它 作用 于 三 个 参数 :， 信号 编号 
sig. siginfo_t 表 的 地 址 ijnfo (可 选 的 值 为 0、1 或 2, 如 前 面 “specific_send_sig_info() 
函数 “一 节 中 所 描述 的 ) 以 及 进程 描述 符 的 地 址 p。 

该 国 数 主要 执行 下 面 的 步 邓 ， 


1. 检查 参数 sig 是 否 正确 : 


if (sig < 0 || sig > 64) 
return -EINVAL; 


2. ”如 果 信 号 是 由 用 户 态 进 程 发 送 的 , 则 该 贸 数 确定 是 否 允 许 这 个 操作 。 下列 条 件 中 至 
少 有 一 个 成 立时 信号 才能 被 传递 : 
。 发 送 进程 的 拥有 者 具有 适当 的 权能 (这 通常 意味 着 通过 系统 管理 员 发 布 信号 ， 
参见 第 二 十 章 )。 
。 信号 为 SIGCONT 且 目 标 进 程 与 发 送 进程 处 于 同一 个 注册 会 话 中 。 
。 ”两 个 进程 属于 同一 个 用 户 。 
如 果 不 允 许 用 户 态 进程 发 送信 号 ， 畏 数 就 返回 值 -EPERM.。 
3. 如 果 参 数 sig 的 值 为 0， 则 国 数 不 产生 任何 信号 ， 立 即 返 回 : 
if (i'sig 11 'p->sighana) 
return 0; 
因为 0 是 无 效 的 信号 编码 , 用 于 让 发 送 进 程 检 查 它 是 否 有 同 目 标 线 程 组 发 送信 号 所 
必需 的 特权 。 如 果 目 标 进 程 正在 被 杀 死 (通过 检查 它 的 信号 处 理 程序 描述 符 是 否 已 
经 被 释放 来 获知 ) ， 那 么 国 数 也 返回 。 
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获取 p->sighand->siglock 自 旋 锁 并 关闭 本 地 中 断 。 


调用 handle_stop_signal () 消 数 , 该 函数 检查 信号 的 某 些 类 型 , 这 些 类 型 可 能 使 
目标 线程 组 的 其 他 挂 起 信号 无 效 。hanqale_stop_signal () 国 数 执行 下 面 的 步骤 : 


a. 如 果 线 程 组 正在 被 杀 死 《信号 描述 符 的 flags 字段 的 SIGNAL_GROUP_EXIT 
标志 被 设置 )， 则 了 尔 数 返回 。 

b. 如 果 sig 是 SIGSTOP、SIGTSTP、SIGTTIN 或 SIGTTOU 信号 ， 就 调用 
rm_from_queue () 国 数 从 共享 挂 起 信号 队列 pP->signal->shareq_pending 和 
线程 组 所 有 成 员 的 私有 信号 队列 中 删除 SIGCONT 信号 。 


c. 如 果 sig 是 SIGCONT 人 信号， 就 调用 rm_from_queue1) 国 数 从 共享 挂 起 信号 队 
列 p->signal->shared_pending 中 删除 所 有 的 SIGSTOP、 SIGTSTP、 
SIGTTIN 和 SIGTTOU 信 号 , 然后 从 属于 线程 组 的 进程 的 私有 挂 起 信号 队列 中 
删除 上 述 信 号 ， 并 唤醒 进程 : 


rm_from queue (Ox003c0000, g&p->signal->shared_ pending); 


rm from queue (Ox003c0000, &t ->pending}); 
try_to_ wake_up(t, TASK_STOPPED, 0); 
t = next _ thread(t}); 

} while (t != p); 


掩 码 0x003c0000 选 择 以 上 四 种 停止 信号 。 宏 next_thread 每 次 循环 都 返回 线程 组 
中 不 同 轻 量 级 进程 的 描述 符 地 址 ( 见 第 三 章 “ 进 程 间 的 关系 ”一 节 ) ( 注 5)。 
检查 线程 组 是 否 忽略 信号 ， 如 果 是 就 返回 0 值 (成 功 )。 如 果 在 前 面 “信号 的 作用 ” 
一 市 中 所 提 到 的 忽略 信号 的 三 个 条 件 都 满足 (也 可 参见 前 面 “specific-send- 
sig.info(O 国 数 ” 一 节 中 的 第 1 步 ) ， 就 忽略 信和 号 。 


检查 信号 是 否 是 非 实 时 的 ,并 且 在 线程 组 的 共享 挂 起 信号 队列 中 已 经 有 另外 一 个 相 
同 的 信和 号， 如果 是 ， 就 什么 都 不 需要 做 ， 因 此 返回 0 值 〈 成 功 ) 。 


if (sig<32 && Sigismember {(&p->signal->shared_pending.signal,sig)) 
return 0; 


调用 sena_signal() 国 数 把 信号 添加 到 共享 挂 起 信号 队列 中 (参见 前 面 
“send_signal() 国 数 ” 一 节 )。 如 果 senq_signal () 返 回 非 0 的 错误 代码 ， 则 男 数 终 
止 并 返回 相同 的 值 。 


实际 代码 比 这 里 所 给 出 的 代码 片段 要 复杂 得 多 ,因为 nandle_stop_signal{() 还 要 考虑 
SIGCONT 信 和 号 被 捕获 的 特殊 情况 ,以 及 当 线 程 组 的 所 有 进程 都 正在 被 停止 时 由 SIGCONT 
信号 引起 竞争 条 件 的 特殊 情况 。 
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9. 调用 __group_complete_signal() 国 数 唤 醒 线程 组 中 的 一 个 轻 量 级 进程 ( 见 下 
面 ) 。 


10. 释放 p->sighand->siglock 自 旋 锁 并 打开 本 地 中 断 。 
11.， 返回 0 (成 功 ) 。 


函数 __group_complete_signal () 扫 擅 线程 组 中 的 进程 ， 查 找 能 接收 新 信号 的 进程 。 满 
足下 述 所 有 条 件 的 进程 可 能 被 选中 : 


。 “进程 不 阻塞 信和 号 。 
。 “进程 的 状态 不 是 EXIT_ZOMBIE、EXIT_DEAD、TASK_TRACED 或 TASK_STOPPED ( 作 


为 一 种 异常 情况 ， 如 果 信 和 号 是 SIGKILL， 那 么 进程 可 能 处 于 TASK_TRACED 或 者 
TASK_STOPPED 状态 ) 。 


。 ”进程 没有 正在 被 杀 死 ， 即 它 的 PF_EXITING 标志 设 有 置 位 。 


。 ”进程 或 者 当前 正在 CPU 上 运行 ， 或 者 它 的 TIF_SIGPENDING 标志 还 没有 设置 。 
(实际 上 , 唤醒 一 个 有 挂 起 信号 的 进程 是 毫 无 意义 的 : 通常 ， 唤 醒 操 作 已 经 由 设置 
了 TIF_SIGPENDING 标志 的 内 核 控制 路 径 执 行 ， 另 一 方面 ， 如 果 进 程 正在 执行 ， 
则 应 该 向 它 通报 有 新 的 挂 起 信号 。) 


一 个 线程 组 可 能 有 很 多 满足 上 述 条 件 的 进程 , 国 数 按照 下 面 的 规则 选择 其 中 的 一 个 进程 : 


。 ”如 果 Pp 标识 的 进程 (由 group_send_sig_info() 的 参数 传递 的 描述 符 地 址 ) 满足 
所 有 的 优先 准则 ， 并 因此 而 能 接收 信号 ， 函 数 就 选择 该 进程 。 


。 否则, 函数 通过 扫描 线程 组 的 成 员 搜索 一 个 适当 的 进程 , 搜索 从 接收 线程 组 最 后 一 
个 信号 的 进程 (p->signal->curr_target) 开始 。 


如 果 了 她 数 __group_complete_signal() 成 功 地 找到 一 个 适当 的 进程 , 就 开始 向 被 选中 
的 进程 传递 信号 。 首 先 ， 函 数 检查 信号 是 否 是 致命 的 ， 如 果 是 ， 通 过 辐 线 程 组 中 的 所 有 
轻 量 级 进程 发 送 SIGKILL 信号 杀 死 整个 线程 组 。 和 否则， 函数 调用 signal_wake_up () 
国 数 通知 被 选中 的 进程 : 有 新 的 挂 起 信号 到 来 【( 见 前 面 “specific_send_sig_info(O) 国 数 ” 
一 节 的 第 4 步 )。 


和 i 
传递 信和 号 
我 们 假定 内 核 已 注意 到 一 个 信号 的 到 来 ,并 调用 前 面 所 介绍 的 函数 为 接收 此 信号 的 进程 
准备 描述 符 。 但 万 一 这 个 进程 在 那 一 刻 并 不 在 CPU 上 运行 ， 内 核 就 延迟 传递 信号 的 任 
务 。 我 们 现在 转向 另 一 个 主题 ， 即 为 确保 进程 的 挂 起 信号 得 到 处 理 内 核 所 执行 的 操作 。 
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我 们 在 第 四 章 “ 从 中 断 和 异常 返回 ”一 节 中 提 到 ， 内核 在 允许 进程 恢复 用 户 态 下 的 执行 
之 前 ,检查 进程 TIF_SIGPENDING 标志 的 值 。 每 当 内 核 处 理 完 一 个 中 断 或 异常 时 ， 就 
检查 是 否 存在 挂 起 信号 。 


为 了 处 理 非 阻塞 的 挂 起 信号 ， 内 核 调 用 ao_signal() 国 数 ， 它 接收 两 个 参数 ， 


regs 
栈 区 的 地 址 ， 当 前 进程 在 用 户 态 下 寄存 器 的 内 容 存放 在 这 个 栈 中 。 

oldset 
变量 的 地 址 ,假设 函数 把 阻塞 信号 的 位 掩 码 数组 存放 在 这 个 变量 中 。 如 果 没 有 必要 
保存 位 掩 码 数组 ， 则 它 为 NULL。 


对 于 do_signal() 函 数 ， 我们 将 重点 说 明 信 号 传递 的 一 般 机 制 。 它 的 实现 代码 很 累 装 ， 
这 是 因为 要 对 竞争 条 件 和 其 他 特殊 情况 (如: 冻结 系统 、 产 生 内 存 信息 转 储 、 停 止 和 杀 
死 整个 线程 组 等 等 ) 进行 详细 处 理 ， 因 此 我 们 将 悄然 地 略 过 这 些 细 市 。 


就 像 已 经 提 到 过 的 ， 通 常 只 是 在 CPU 要 返回 到 用 户 态 时 才 调 用 do_signai () 函 数 。 
此 ， 如 果 中 断 处 理 程序 调用 do_signal()， 则 该 函数 立刻 返回 : 


if ((regs->xcs & 3) !'= 3) 
return 1; 


如 果 oldset 参数 为 NULL， 国 数 驶 用 current->pblocked 字段 的 地 址 对 它 初 始 化 : 


It (ioldset) 
Oldset = &current->blocked; 


do_signal () 图 数 的 核心 由 重复 调用 dequeue_signal () 国 数 的 循环 组 成 ， 直 到 在 私有 挂 
起 信号 队列 和 共享 挂 起 信号 队列 中 都 设 有 非 阻塞 的 挂 起 信号 时 ， 循 环 才 结束 。 
dequeue_signal() 的 返回 码 存放 在 signr 局 部 变量 中 。 如 果 值 为 0， 意 味 着 所 有 挂 起 的 
言 号 已 全 部 被 处 理 , 并 且 do_signal () 可 以 结束 。 只 要 返回 一 个 非 0 值 ， 就 意味 着 挂 起 的 
言 号 正 等 待 被 处 理 ， 并 且 do_signal () 处 理 了 当前 信号 后 又 调用 了 aequeue_signal () 。 


dequeue_signal () 国 数 首先 芳 虑 私有 挂 起 信号 队列 中 的 所 有 信和 号， 并 从 最 低 编 号 的 挂 
起 信号 开始 。 然 后 考虑 共享 队列 中 的 信号 。 它 更 新 数据 结构 以 表示 信号 不 再 是 挂 起 的 ， 
并 返回 它 的 编号 。 这 就 涉及 清 current->pending.signal 或 current->signal 
->shared_pending.signal 中 对 应 的 位 ， 并 调用 recalc_sigpending{) 更 新 
TIF_SIGPENDING 标 志 的 值 。 


让 我 们 来 看 do_signal () 国 数 如 何 处 理 每 一 个 挂 起 的 信号 ,其 编号 由 aequeue_signal () 
返回 。 首 先 ， 它 检查 current 接收 进程 是 否 正 受到 其 他 一 些 进程 的 监控 ， 在 肯定 的 情况 
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下 , do_signal() 调 用 do_notify_parent_cidstop{) 和 schedule() 让 监控 进程 知道 进 

程 的 信号 处 理 。 

然后 ，do_signal() 把 要 处 理 信号 的 k_sigaction 数据 结构 的 地 址 赋 给 局 部 变量 ka: 
ka = &current->sig->action[lsignr-1]; 

根据 ka 的 内 容 可 以 执行 三 种 操作 ， 忽略 信号 、 执 行 缺 省 操作 或 执行 信号 处 理 程 序 。 

如 果 显 式 忽 略 被 传递 的 信号 ,那么 Go_signal() 函 数 仅 仅 继 续 执 行 循 环 , 并 由 此 考虑 另 

一 个 挂 起 信号 : 


ijf {ka->sa.sa_handler == SIG_IGN) 
continue; 


在 下 面 两 季 ， 我 们 将 说 明 如 何 执 行 缺 省 操作 和 信号 处 理 程 序 。 


执行 信号 的 缺 省 操作 

如 果 ka->sa.sa_handler 等 于 SIG_DFL, ao_signal() 就 必须 执行 信号 的 缺 省 操作 。 唯 
一 的 例外 是 当 接 收 进程 是 init 时 ， 在 这 种 情况 下 ， 正 如 前 面 “ 传 递 信 号 之 前 所 执行 的 操 
作 ” 一 节 中 所 描述 的 那样 ， 这 个 信号 被 丢弃: 


if (current->pid == 1) 
continue,; 
如 打 接 收 进程 是 其 他 进程 ， 对 缺 省 操作 是 Ignore 的 信号 进行 处 理 也 很 简单 : 
if (signr==SIGCONT }| signr==SIGCHLD || 
signr==SIGWINCH || signr==SIGURG) 
cont inue; 


缺 省 操作 是 Stop 的 信号 可 能 停止 线程 组 中 的 所 有 进程 。 为 此 ，do_signal() 把 进程 的 
状态 都 置 为 TASK_STOPPED， 并 在 随后 调用 scheGule() 函 数 (参见 第 七 章 “schedule() 
图 数 ” 一 闻 ) 。 


if (signr==SIGSTOP || signr==SIGTSTP || 
signr==SIGTTIN || signr==SIGTTOU}) { 
If (signr 1= SIGSTOP && 
is_orphaned pgrp(current->signal->pgrp)) 
cont jnue; 


do_signal_stopl(signr); 
} 


SIGSTOP 与 其 他 信号 的 差异 比较 微妙 : SIGSTOP 总 是 停止 线程 组 , 而 其 他 信号 只 停止 
不 在 “孤儿 进程 组 ”中 的 线程 组 。 POSIX 标 准 规定 , 只 要 进程 组 中 有 一 个 进程 有 父 进程 ， 
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尽管 父 进程 处 于 不 同 的 进程 组 中 但 在 同一 个 会 话 中 ,那么 这 个 进程 组 就 不 是 孤儿 。 因 此 ， 
如 果 父 进程 死亡 ， 但 启动 该 进程 的 用 户 仍 登 录 在 线 ， 那 么 该 进程 组 就 不 是 一 个 孤儿 。 


do_sigmnal_stop() 国 数 检查 current 是 否 是 线程 组 中 第 一 个 被 停止 的 进程 ， 如 果 是 , 它 
激活 "组 停止 ": 本 质 上 ， 该 锁 数 把 一 个 正 数 值 赋 给 信号 描述 符 中 的 group_stop_count 字 
段 , 并 唤醒 线程 组 中 的 所 有 进程 。 所 有 这 样 的 进程 都 检查 该 字段 以 确认 正在 进行 “组 停止 ” 
操作 ， 然 后 把 进程 的 状态 置 为 TASK_STOPPED， 并 调用 schedule()。 如 果 线 程 组 领头 进 
程 的 父 进 程 设 有 设置 SIGCHLD 的 SA_NOCLDSTOP 标 志 ， 那 么 do_signal_stop() 国 数 还 
要 回 它 发 送 SIGCHLD 信号。 


缺 省 操作 为 Dump 的 信号 可 以 在 进程 的 工作 目录 中 创建 一 个 “ 转 储 ”文件 ， 这 个 文件 列 
出 进程 地 址 空间 和 CPU 寄存 器 的 全 部 内 容 。do_signal () 创 建 了 转 储 文件 后 , 就 杀 死 这 
个 线程 组 。 剩 余 18 个 信号 的 缺 省 操作 是 Terminate， 它 仅仅 是 杀 死 线程 组 。 为 了 杀 和 死 整 
个 线程 组 ， 国 数 调用 ao_group_exit () 执 行 彻 底 的 “组 退出 ”过 程 (参见 第 三 章 的 “ 进 
程 终止 ”一 节 )。 


= 3 
捕获 信号 
如 果 信 和 号 有 一 个 专门 的 处 理 程序 ，do_signal() 就 函数 必须 强迫 该 处 理 程序 执行 。 这 是 
通过 调用 handle_signal () 进 行 的 : 
handle_ signal (signr, &info, &ka, oldset, regs)}; 
if (ka->sa.sa_flags & SA_ONESHOT) 


ka->sa.sa handler = SIG_ DFL: 
return 1]; 


如 果 所 接收 信号 的 SA_ONESHOT 标志 被 置 位 ， 就 必须 重新 设置 它 的 缺 省 操作 ， 以 便 同 
一 信号 的 再 次 出 现 不 会 再 次 触发 这 一 信号 处 理 程序 的 执行 。 注 意 do_signal() 在 处 理 了 
一 个 单独 的 信号 后 怎样 返回 。 直 到 下 一 次 调用 do_signal() 时 才 考 虑 其 他 挂 起 的 信号 。 
这 种 方式 确保 了 实时 信号 将 以 适当 的 顺序 得 到 处 理 。 


执行 一 个 信号 处 理 程序 是 件 相当 复杂 的 任务 ,因为 在 用 户 态 和 内 核 态 之 间 切 换 时 需要 说 
什 地 处 理 栈 中 的 内 容 。 我 们 将 正确 地 解释 这 里 所 承担 的 任务 。 


言 写 处 理 程序 是 用 户 态 进程 所 定义 的 函数 ,并 包含 在 用 户 态 的 代码 段 中 。handle_signal () 
函数 运行 在 内 核 态 ， 而 信号 处 理 程序 运行 在 用 户 态 ， 这 就 意味 着 在 当前 进程 恢复 “正常 
执行 之 前 ， 它 必须 首先 执行 用 户 态 的 信号 处 理 程序 。 此 外 ， 当 内 核 打 算 恢复 进程 的 正常 执 
行 时 ,内 核 态 堆 栈 不 再 包含 被 中 断 程序 的 硬件 上 下 文 ,因为 每 当 从 内 核 态 向 用 户 态 转换 时 ， 
内 核 态 堆栈 都 被 清空 。 


信号 2 


而 男 外 一 个 复杂 性 是 因为 信号 处 理 程序 可 以 调用 系统 调用 ， 在 这 种 情况 下 , 执行 了 系统 
调用 的 服务 例 程 以 后 ,控制 权 必 须 返 回 到 信号 处 理 程 序 而 不 是 到 被 中 断 程 序 的 正常 代表 
令 。 


Linux 所 采用 的 解决 方法 是 把 保存 在 内 核 态 堆栈 中 的 醒 件 上 下 文 拷贝 到 当前 进程 的 用 户 
态 堆栈 中 。 用 户 态 堆栈 也 以 这 样 的 方式 被 修改 ， 即 当 信号 处 理 程 序 终止 时 ， 自 动 调用 
sigreturn() 系 统 调用 把 这 个 硬件 上 下 文 拷 内 加 到 内 核 态 堆栈 中 , 并 恢复 用 户 态 堆栈 中 


图 11-2 说 明了 有 关 捕 获 一 个 信号 的 函数 的 执行 流 。 一 个 非 阻 寨 的 信号 发 送 给 一 个 进程 。 
当中 断 或 异种 用 竺 肘 ， a 正 要 返回 到 用 户 态 前 ， 内 核 执行 
doeo_signal() 国 数 ， 这 个 国 数 又 依次 处 理 售 号 〈 通 过 调用 handle_signal()) 和 建立 用 
户 态 堆 栈 〈 通 过 调用 setuP_frame () 或 seEup_rt_frame())。 当 进程 又 切换 到 用 户 态 
时 ， 因 为 信号 处 理 程序 的 起 始 地 址 被 强制 放 进 程序 计数 絮 中 ,因此 开始 执行 信号 处 理 程 
序 。 当 处 理 程序 终止 时 ，setup_ frame() 或 setup_rt_frame() 限 数 放 在 用 户 态 堆栈 中 
的 返回 代码 就 被 执行 。 这 个 代码 调用 sigreturn() 或 rt_sigreturn() 系 统 调 用 ， 相 应 
的 服务 例 程 把 正常 程 祝 的 用 户 赤红 扩大 件 上 下 广内 到 内 核 态 和 术 ， 并 把 用 户 态 堆栈 恢 
复 到 它 原 来 的 状态 (通过 调用 restore_sigcontext ())。 当 这 个 系统 调用 结束 时 , 普通 
进程 就 因此 能 恢复 日 已 的 执行 。 








\ 正常 的 do signalf() 
程序 流 | 


handle signal() 







setup frame() 


] 














堆栈 中 的 


? system call() 
返回 代码 





sys_sigreturn() 


restore sigcontext() 和 量 








图 11-2， 捕获 一 个 信号 


现在 我 们 详细 考察 如 何 实施 这 种 方案 。 
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建立 帧 

为 了 适当 地 建立 进程 的 用 户 态 堆栈 ，handle_signal() 函 数 或 者 调用 setup_frame () 
(对 不 需要 siginfo_t 表 的 信号 ， 参见 本 章 后 面 “ 与 信号 处 理 相关 的 系统 调用 ”一 市 )， 
或 者 调用 setup_rt_frame() (对 需要 siginfo.t 表 的 信号 )。 为 了 在 这 两 个 函数 之 则 进 
行 选择 ， 内 核 检 查 与 信号 相关 的 sigaction 表 sa_flags 字段 的 SA_SIGINFO 标 志 


setup_frame() 国 数 接收 四 个 参数 ， 它 们 具有 下 列 含义 : 
Sig 
信号 编号 
ka 
与 信号 相关 的 k_sigaction 表 的 地 址 
oldset 
阻塞 信号 的 位 掩 码 数组 的 地 址 


regs 


用 户 态 寄存 器 的 内 容 保存 在 内 核 态 堆栈 区 的 地 址 


setup_frame() 国 数 把 一 个 叫做 帧 (frame) 的 数据 结构 推进 用 户 态 堆 栈 中 ， 这 个 帧 含 
有 处 理 信号 所 需要 的 信息 , 并 确保 正确 返回 到 handle_signal() 钢 数 。 一 个 帧 就 是 包含 
下 列 字段 的 sigframe 表 ( 见 图 11-3): 


pretcode 
信号 处 理 函 数 的 返回 地 址 ， 它 指向 __kernel_sigreturn 标记 处 的 代码 ( 稍 后 列 
出 )。 

Sig 
信号 编写， 这 是 信号 处 理 程 序 所 需 的 参数 。 

SC 
类 型 为 sigcontext 的 结构 , 它 包 含 正 好 切换 到 内 核 态 前 用 户 态 进程 的 硬件 上 下 文 
(这 种 信息 是 从 current 的 内 核 态 堆栈 中 拷贝 过 来 的 ) ,还 包含 进程 被 阻塞 的 常规 信 
号 的 位 数组 。 


fpstate 
类 型 为 _fpstate 的 结构 ， 可 以 用 来 存放 用 户 态 进程 的 浮 点 寄存 器 内 容 (参见 第 三 
章 的 “保存 和 加 载 FPU、MMX 及 XMM 寄存 器 ”一 节 )。 

extramask 


外 Q 阻 塞 的 实时 信号 的 位 数组 。 


i 
| a 
< 
从 
(ww 





retcode 
发 出 sigreturn() 系 统 调用 的 8 字 节 代码 。 在 Linux 的 早期 版 本 中 ,这 段 程序 有 效 
地 执行 从 信号 处 理 程 序 返 回 的 功能 ， 但 在 Linux 2.6 中 ， 它 仅 被 当做 一 个 标记 
(signature) 来 使 用 ， 以 便 调 式 程 序 能 识别 出 信号 栈 帧 。 
















vsyscall 页 







信号 处 理 程序 的 返回 地 址 
信号 处 理 程序 的 参数 (sig# ) 
进程 的 硬件 上 下 文 
浮 点 寄存 器 
阻塞 的 实时 信和 号 
信号 帧 标记 


以 前 堆栈 的 内 容 











_ kemel Sigretum: 
popl 9%eax 





movi 9119 %eax 
int 40x80 


















图 11-3: 在 用 户 态 堆栈 中 的 帧 


setup_frame () 困 数 首 先 调 用 get_sigframe() 计 算 帧 的 第 一 个 内 存单 元 ， 这 个 内 存单 
元 通常 是 在 用 户 态 堆栈 中 ( 注 6)， 因 此 销 数 返回 值 .; 


{regs->esp - Sizeof (struct sigframe)}} & Oxfffffff8 


因为 栈 朝 低地 址 方向 延伸 ， 所 以 通过 把 当前 栈 顶 的 地 址 减 去 它 的 大 小 , 使 其 结果 与 8 的 
倍数 对 齐 ， 就 获得 了 帧 的 起 始 地 址 。 


然后 用 access_ok 宏 对 返回 地 址 进行 验证 。 如 果 地 址 有 效 ，setup_frame() 就 反复 调用 
__put_user() 填 充 帧 的 所 有 字段 。 帆 的 pretcode 字 段 初 始 化 为 &__kernel_sigreturn,， 
一 些 粘 合 代码 的 地 址 放 在 vsyscall 页 中 (参见 第 十 章 “ 通 过 sysenter 指令 发 出 系统 调用 ” 
= 


一 旦 完成 了 这 个 操作 ， 就 修改 内 核 态 堆栈 的 regs 区 ， 这 就 保证 了 当 current 恢复 它 在 
用 户 态 的 执行 时 ， 控 制 权 将 传递 给 信号 处 理 程序 。 


注 6: Linux 允许 进程 通过 调用 signalstack() 系 统 调 用 来 为 它们 的 信号 处 理 程序 指定 一 个 预 
备 的 栈 , 这 种 特点 也 是 X/DOpen 标 准 所 和 要求 的 。 当 一 个 预备 的 栈 看 在 时 ,get_sigframe () 
瑶 数 就 返回 这 个 栈 中 的 一 个 地 址 。 我 们 在 此 不 进一步 讨论 这 种 情况 ， 因 为 它 从 概念 上 非 
常 类 似 于 常规 信号 的 处 理 。 





(unsigned long) frame; 

(unsigned long) ka->sa.sa. handler; 
(unsigned long) sig; 

regs->ecx = 0; 

regS->Xes = TeGS->XSS = __USER_DS; 
__USER_ CS; 


setup_frame () 国 数 把 保存 在 内 核 态 堆栈 的 段 寄 存 器 内 容重 新 设置 成 它们 的 缺 省 值 以 后 
才 结束 。 现 在 ， 信 和 号 处 理 程序 所 需 的 信息 就 在 用 户 态 堆栈 的 顶部 。 


Setup_rt_frame() 销 数 与 setup_frame() 非 常 相似 , 但 它 把 用 户 态 堆 栈 存 放 在 一 个 扩展 的 
顿 中 《保存 在 rt_sigframe 数 据 结构 中 ) ， 这 个 帧 也 包含 了 与 信号 相关 的 siginfo 上 表 的 内 
容 。 此 外 ,该 函数 设置 pretcode 字 段 以 使 它 指 向 vsyscall 页 中 的 __kernel_rt_sigretum 
代码 。 


regs->esp 
regs->eip 
regs->eax 
regs->edx 
regs->xds 
regs->xcs 


i 


检查 信号 标志 
建立 了 用 户 态 堆栈 以 后 , handqle_signal () 国 数 检 查 与 信号 相关 的 标志 值 。 如 果 信 和 号 没 
有 设置 SA_NODEFER 标 志 , 在 sigaction 表 中 sa_mask 字 段 对 应 的 信号 就 必须 在 信号 
处 理 程 序 执行 期 间 被 阻塞 ， 
If (!(ka->sa.sa_flags & SA_NODEFER})) { 
spin_lock_irq(&kcurrent->sighand->siglock}; 
Sigorsets{&current->blocked, &current->blocked, &ka->sa.sa_ mask); 
Sigaddset (&current->blocked, sig); 
recalc_sigpending (current); 


spin_ unlock_irgql(l&current ->sighand->siglock); 
} 


如 前 所 述 , recalc_sigpenqaing () 国 数 检 查 进 程 是 否 有 非 阻塞 的 挂 起 信号 , 并 因此 而 设 
置 它 的 TIF_SIGPENDING 标志 。 


然后 ，hanale_signal() 返 回 到 ao_signal()，qo_signal() 也 立即 返回 。 


开始 执行 信号 处 理 程序 

qo_signal () 返 回 时 ， 当 前 进程 恢复 它 在 用 户 态 的 执行 。 由 于 如 前 所 述 setup_frame () 
的 准备 ，eip 寄 存 器 指向 信号 处 理 程序 的 第 一 条 指令 , 而 esp 指向 已 推进 用 户 态 堆栈 顶 
的 帧 的 第 一 个 内 存单 元 。 因 此 ， 信 和 号 处 理 程序 被 执行 。 


终止 信号 处 理 程序 


音 纪 处 理 程序 结束 时 , 返回 栈 顶 地 址 ,该 地 址 指向 帧 的 pretcoae 字 段 所 引用 的 vsyscall 
页 中 的 代码 : 


~ 


号 445 





__kernel_sigreturn: 
PopPl1 ®eax 
movl $__NR sigreturn, $%eax 
Int SOx80 


因此 ， 信 号 编号 〈《 即 帧 的 sig 字段) 被 从 栈 中 丢弃 ,然后 调用 sigreturn () 系 统 调用 。 


sys_sigreturn() 国 数 计 算 类 型 为 Pt_regs 的 数据 结构 regs 的 地 址 ， 其 中 pt_regs 包 
含 用 户 态 进程 的 硬件 上 下 文 《参见 第 十 章 “ 参 数 传递 ”一 节 )。 从 存放 在 esp 字段 中 的 
值 ， 由 此 而 导出 并 检查 帧 在 用 户 态 堆栈 内 的 地 址 : 
frame = {struct sigframe *) (regs.esp - 8) 
if {verify arealVERIFY_READ, frame, sizeof (*frame)) ( 
force_sig{(SIGSEGV, current)}), 


return 0; 


} 


然后 ,函数 把 调用 信号 处 理 程序 前 所 阻塞 的 信号 的 位 数组 从 帧 的 sc 字段 拷贝 到 current 
的 blocked 字 段 。 结 果 ，, 为 信号 处 理 函 数 的 执行 而 屏蔽 的 所 有 信号 解除 阻塞 。 然后 调用 
recalc_sigpenqing() 国 数 。 


此 时 , sys_sigreturn() 国 数 必 须 把 来 自 帧 的 sc 字段 的 进程 硬件 上 下 文 拷 贝 到 内 核 态 堆 
栈 中 ,并 从 用 户 态 堆栈 中 删除 帧 ， 这 两 个 任务 是 通过 调用 restore_sigcontext () 国 数 


像 rt_sigqueueinfo() 这 样 的 系统 调用 需要 与 信号 相关 的 siginfo_t 表 ， 如 果 信 号 是 
这 种 系统 调用 发 送 的 , 则 其 实现 机 制 非常 相似 。 扩展 帧 的 pretcode 字 有 段 指向 vsyscall 页 
面 中 的 __kernel_rt_sigreturn 人 代码， 它 依次 调用 rt_sigreturn() 系 统 调用 ， 其 相 
应 的 sys_rt_sigreturn() 服 务 例 程 把 来 自 扩展 帧 的 进程 硬件 上 下 文 找 贝 到 内 核 态 堆栈 ， 
并 通过 从 用 户 态 堆栈 删除 扩展 帧 以 恢复 用 户 态 堆 栈 原来 的 内 容 。 


系统 调用 的 重新 执行 
内 核 并 不 总 是 能 立即 满足 系统 调用 发 出 的 请 求 , 在 这 种 情况 发 生 时 , 把 发 出 系统 调用 的 


进程 置 为 TASK_INTERRUPTIBLE 或 TASK_UNINTERRUPTIBLRE 状态 。 


如 果 进 程 处 于 TASK_INTERRUPTIBLE 状态 ， 并 且 某 个 进程 向 它 发 送 了 一 个 信号 ， 那 
么 ,内核 不 完成 系统 调用 就 把 进程 置 成 TASK_RUNNING 状态 (参看 第 四 章 的 “从 中 断 
和 异常 返回” 一 节 )。 当 切换 回 用 户 态 时 信号 被 传递 给 进程 。 当 这 种 情况 发 生 时 ， 系 统 
调用 服务 例 程 没 有 完成 它 的 工作 ， 但 返回 EINTR、ERESTARTNOHAND、ERESTART_ 
RESTARTBLOCK、ERESTARTSYS 或 ERESTARTNOINTR 错误 码 。 
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实际 上 , 这 种 情况 下 用 户 态 进程 获得 的 唯一 错误 码 是 EINTR, 这 个 错误 码 表示 系统 调用 
还 没有 执行 完 (应 用 程序 的 编写 者 可 以 测试 这 个 错误 码 并 决定 是 否 重新 发 出 系统 调用 )。 
内 核 内 部 使 用 剩余 的 错误 码 来 指定 信号 处 理 程 序 结束 后 是 否 自动 重新 执行 系统 调用 。 


表 11-11 列 出 了 与 未 完成 的 系统 调用 相关 的 出 错 码 及 这 些 出 错 码 对 信号 三 种 可 能 的 操作 
产生 的 影响 。 在 表 项 中 出 现 的 几 个 术语 的 含义 如 下 : 


Terminate 
不 会 自动 重新 执行 系统 调用 ; 进程 在 int $0x80 或 sysenter 指 令 紧 接着 的 那 条 指 
令 处 将 恢复 它 在 用 户 态 的 执行 ， 这 时 eax 寄存 器 包含 的 值 为 -EINTR。 
Reexecute 
内 核 强 迫 用 户 态 进程 把 系统 调用 号 重新 装 和 eax 寄存 器 ， 并 重新 执行 int $0x80 
指令 或 sysenter 指 令 。 进程 意识 不 到 这 种 重新 执行 , 因此 出 错 码 也 不 传递 给 进程 。 
Depends 
只 有 被 传递 信号 的 SA_RESTART 标志 被 设置 ， 才 重新 执行 系统 调用 ， 否则 ， 系 统 
调用 以 -EINTR 出 错 码 结束 。 


表 11-11: 系统 调用 的 重新 执行 


错误 码 及 其 对 系统 调用 执行 的 影响 
信号 ERESTARTNOHAND . 
操作 EINTR ERESTARTSYS “ERESTART_RESTARTBLOCK-" ERESTARTNOINTR 
Default Terminate Reexecute Reexecute Reexecute 
lgnore Terminate Reexecute Reexecute Reexecute 
Catch Terminate Depends Terminate Reexecute 


a. 在 允许 重新 开始 执行 系统 调用 的 机 制 中 ， 锚 误 代 码 ERESTARTNOHAND 和 ERESTART_ 
RESTARTBLOCK 是 有 所 不 同 的 ( 见 下 面 )。 


当 传 递 信 号 时 ,内 核 在 试图 重新 执行 一 个 系统 调用 前 必须 确定 进程 确实 发 出 过 这 个 系统 
调用 。 这 就 是 regs 硬 件 上 下 文 的 orig_eax 字 段 起 重要 作用 之 处 。 让 我 们 回顾 一 下 中 断 
或 异 毅 处 理 程序 开始 时 是 如 何 初 始 化 这 个 字段 的 : 


中 有 断 
这 个 字段 包含 的 值 为 与 中 断 相关 的 IRQ 号 减 去 256 (参看 第 四 章 的 “为 中 断 处 理 程 
序 保存 寄存 器 的 值 ”一 布 )。 


0x80 异常 (或 者 sysenter) 
这 个 字段 包含 系统 调用 号 (参看 第 十 章 的 “进入 和 退出 系统 调用 ”一 市)。 
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其 他 异常 
这 个 字段 包含 的 值 为 -1 (参看 第 四 章 的 为 异常 处 理 程序 保存 寄存 器 的 值 一 节 )。 


因此 ，orig_eax 字 段 中 的 非 负数 意味 着 信号 已 经 唤 鲁 了 在 系统 调用 上 睡眠 的 
TASK_INTERRUPTIBLE 进程 。 服 务 例 程 认 识 到 系统 调用 曾 被 中 断 ， 并 返回 前 面 提 到 
的 某 个 错误 码 。 


重新 执行 被 未 捕获 信号 中 断 的 系统 调用 

如 果 信 号 被 显 式 地 忽略 , 或 者 如 果 它 的 缺 省 操作 已 被 强制 执行 ,ao_signal () 就 分 析 系 
统 调用 的 出 错 码 ,并 如 表 11-11 中 所 说 明 的 那样 决定 是 否 重 新 自动 执行 未 完成 的 系统 调 
用 。 如 果 必 须 重 新 开始 执行 系统 调用 ， 那 么 ao_signal () 就 修改 regs 硬件 上 下 文 ， 以 
便 在 进程 返回 到 用 户 态 时 ，eip 指向 int $0x80 指令 或 sysenter 指令 ， 且 eax 包 含 系 
统 调用 号 : 


If (regs->orig eax >= 0) { 


if {regs->eax == -ERESTARTNOHAND | | regs->eax == -ERESTARTSYS || 
regs->eax == -ERESTARTNOINTR) { 
regs->eax = regs->0rig_eax; 
regs->eip -= 2; 
} 
if (regs->eax -==- -ERESTART_RESTARTBLOCK) { 


regs->eax __NR restart syscall; 
regs->eip -= 2) 


} 


把 系统 调用 服务 例 程 的 返回 代码 赋 给 regs->eax 字 段 (参见 第 十 章 “ 进 入 和 退出 系统 调 
用 ”一 节 )。 注 意 ，int $0x80 和 sysreturn 的 长 度 都 是 两 个 字 节 ， 因 此 该 函数 从 eip 
中 减 去 2， 使 eip 指向 引起 系统 调用 的 指令 。 


ERESTART_RESTARTBLOCK 错误 代码 是 特殊 的 ， 因 为 eax 寄存 器 中 存放 了 restart_ 
syscall() 的 系统 调用 号 , 因此 ,用户 态 进程 不 会 重新 执行 被 信号 中 断 的 同一 个 系统 调 
用 。 这 个 错误 代码 仅 用 于 与 时 间 相 关 的 系统 调用 ， 当 重新 执行 这 些 系 统 调用 时 ， 应 该 调 
整 它们 的 用 户 态 参数 。 一 个 典型 的 例子 是 nanosleep () 系 统 调用 (参见 第 六 章 “ 动 态 定 
时 器 应 用 之 一 : nanosleep() 系 统 调用 ”一 市 ); 假设 进程 为 了 暂停 执行 20ms 而 调用 了 
nanosleep() ， 而 在 10ms 后 出 现 了 一 个 信号 。 如 果 像 通常 那样 重新 执行 该 系统 调用 (不 
调整 其 用 户 态 参数 )， 那 么 总 的 时 间 延 迟 会 超过 30ms。 


可 以 采用 另 一 种 方式 , nanosleep() 系统 调 用 的 服务 例 程 把 重新 执行 时 所 使 用 的 特定 服 
务 例 程 的 地 址 峨 给 current 的 thread_info 结 构 中 的 restart_block 字 段 , 并 在 被 中 
断 时 返回 -ERESTART_RESTARTBLOCK。sys_restart_syscall () 服 务 例 程 只 执行 特 
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定 的 nanosleep() 的 服务 例 程 ,考虑 到 原始 系统 调用 的 调用 到 重新 执行 之 间 有 时间 间隔 ， 
该 服务 例 程 调整 这 种 延迟 。 


为 所 捕获 的 信和 号 重新 执行 系统 调用 
如 果 信 号 被 捕获 ， 那 么 handle_signal() 分 析出 错 码 ， 也 可 能 分 析 sigaction 表 的 
SA_RESTART 标志 来 决定 是 否 必须 重新 执行 未 完成 的 系统 调用 : 
jf (regs->orig_eax >= 0) { 
Switch (regs->eax} { 
case -ERESTART_ RESTARTBLOCK: 
Case -ERESTARTNOHAND: 
regs->eax = -EINTR: 
break:; 
Case -ERESTARTSYS: 
If (!(ka->sa.sa. flags & SA_RESTART}) { 
regs->eax = -EINTR; 
break: 
} 
A* fallthrough */ 
case -ERESTARTNOINTR: 
regS->eax = regSs->orlig. eax; 
regs->eip -= 2; 


} 


如 果 系 统 调用 必须 被 重新 开始 执行 , handle_signal() 就 与 Qo_signal() 完 全 一 样 地 继 
续 执 行 ， 否 则 ， 它 向 用 户 态 进程 返回 一 个 出 错 码 -EINTR。 


与 信号 处 理 相关 的 系统 调用 


正如 本 章 已 提 到 的 ,在 用 户 态 运行 的 进程 可 以 发 送 和 接收 信号 。 这 意味 着 必须 定义 一 组 系统 调 
用 来 完成 这 些 操作 。 遗憾 的 是 ,由 于 历史 的 原因 ,已 经 存在 几 个 具有 相同 功能 的 系统 调用 , 因 
此 , 其 中 一 些 系统 调用 从 未 被 调用 。 例如 : 系统 调用 sys_sigaction() 和 sys_rt_sigacticn () 
几乎 是 相同 的 ， 因 此 C 库 中 封装 函数 sigaction () 调 用 sys_rt_sigaction() 而 不 是 
sys_sigaction()。 下 面 几 节 我 们 将 描述 其 中 一 些 最 重要 的 系统 调用 。 


kill() 系 统 调用 
一 般 用 kill (piq, sig) 系统 调用 向 普通 进程 或 多 线程 应 用 发 送信 号 ,其 相应 的 服务 例 程 
是 sys_kil1I() 国 数 。 整 数 参 数 pid 的 几 个 含义 取决 于 它 的 值 : 
pid >0 
把 sig 信号 发 送 到 其 PID 等 于 pid 的 进程 所 属 的 线程 组 。 
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pid= 0 

把 sig 信号 发 送 到 与 调用 进程 同 组 的 进程 的 所 有 线程 组 。 
pid = -1 

把 信号 发 送 到 所 有 进程 ， 除 了 swapper (PID 0)、init (PID 1) 和 current 以 外 。 
pid < -1 


把 信号 发 送 到 进程 组 -pid 中 进程 的 所 有 线程 组 ，。 


sys_kill() 国 数 为 信号 建立 最 小 的 siginfot 表 , 然后 调用 kill]_something_info{) 
困 数 : 

info.si_signo = sig; 

info.si_errno = 0; 

info.si_code = SI_USER， 

info.._sifields._kill._pid = current ->tgid; 

info._sifields. kill. uid = current->uid,; | 

return kill_ something_info(sig, &info, pid); 
kill_something_info 还 依次 调用 kill]_proc_info{) (通过 group_send_sig_info1() 
辣 一 个 单独 的 线程 组 发 送信 号 ), 或 者 调用 kill_pg_info() (扫描 目 标 进 程 组 的 所 有 进 
程 ， 并 为 目标 进程 组 中 的 每 个 进程 调用 send_sig_info()), 或 者 为 系统 中 的 所 有 进程 
反复 调用 group_senqd_sig_info() (如果 pid 等 于 -1)。 


ki11() 系 统 调用 能 发 送 任 何 信 号 ， 即 使 编号 在 32~64 之 则 的 实时 信号 。 然 而 ， 我 们 在 
前 面 “ 产 生 信 号 ”一 节 已 看 到 , kil1() 系 统 调用 不 能 确保 把 一 个 新 的 元 素 加 入 到 目标 进 
程 的 挂 起 信号 队列 ， 因 此 ， 挂 起 信号 的 多 个 实例 可 能 被 丢失 。 实 时 信号 应 当 通 过 
rt_sigqueueinfo() 系 统 调用 进行 发 送 (参见 后 面 “实时 信和 号 的 系统 调用 ”一 节 ) 。 


System V 和 BSD Unix 各 种 版 本 还 有 一 个 killpg() 系 统 调 用 ， 它 能 显 式 地 同一 组 进程 
发 送信 号 。 在 Linux 中 , 这 个 国 数 是 作为 一 个 库 国 数 来 实现 的 ， 其 实现 利用 了 kil1l() 系 
统 调用 。 另 外 一 个 变 体 是 raise(), 向 当前 进程 〈 即 正在 执行 该 图 数 的 进程 ) 发 送信 号， 
该 函数 在 Linux 中 是 作为 库 函 数 来 实现 的 。 


tkill() 和 tgkill() 系 统 调 用 


tkill() 和 tgkil1l() 系 统 调用 向 线程 组 中 的 指定 进程 发 送信 号 。 所 有 遵循 POSIX 标准 
的 pthreaQ 库 的 pthreaq_kill() 国 数 ， 都 是 调用 这 两 个 国 数 中 的 任意 一 个 加 指定 的 轻 
量 级 进程 发 送信 号。 


ki1ll() 系 统 调用 需要 两 个 参数 : 信号 接收 进程 的 p i 9 PID 和 信号 编号 sig。 
sys_tkill() 服 务 例 程 为 siginfo 表 赋值 、 获 取 进 程 描述 符 地 址 、 进 行 许 可 性 检查 
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(如 前 面 “group_send_sig_info() 消 数 ” 一 市 第 2 步 所 执行 的 操作 ) ， 并 调用 


specific_send_sig_info() 发 送信 号 。 


tgkill() 系 统 调用 和 tki11() 有 所 不 同 ，tgki11 () 还 需要 第 三 个 参数 : 信号 接收 进程 
所 在 线程 组 的 线程 组 ID(tgid)。sys_tgkil1l() 服 务 例 程 执 行 的 操作 与 sys_tki1ll() 完 
全 一 样 , 不 过 还 要 检查 信号 接收 进程 是 否 确实 属于 线程 组 tgidq。 这 个 附加 的 检查 解决 了 
在 向 一 个 正在 被 杀 死 的 进程 发 送 消息 时 出 现 的 竞争 条 件 的 问题 :如 果 另 外 一 个 多 线程 应 
用 正 以 足够 快 的 速度 创建 轻 量 级 进程 , 信号 就 可 能 被 传递 给 一 个 错误 的 进程 。 因 为 线程 
组 ID 在 多 线程 应 用 的 整个 生存 期 中 是 不 会 改变 的 , 所 以 系统 调用 tgkill(}) 解 决 了 这 个 
问题 。 


改变 信号 的 操作 
sigaction(sig,act,oact) 系 统 调 用 允许 用 户 为 信号 指定 -一 个 操作 。 当然 ,如果 设 有 自 
定义 的 信号 操作 ， 那 么 内 核 执行 与 传递 的 信号 相关 的 缺 省 操作 。 


相应 的 sys_sigaction() 服 务 例 程 作用 于 两 个 参数 .sig 信 号 编号 和 类 型 为 old_sigaction 
的 act 表 (表示 新 的 操作 ) 。 第 三 个 可 选 的 输出 参数 oact 可 以 用 来 获得 与 信号 相关 的 以 前 
的 操作 。(olg_sigaction 数据 结构 包括 与 sigaction 结构 相同 的 字段 ， 只 是 字段 的 顺序 
不 同 ， 在 前 面 “与 信号 相关 的 数据 结构 ”一 市 对 sigaction 结构 进行 过 说 明 )。 


这 个 国 数 首先 检查 act 地 址 的 有 效 性 。 然 后 用 *act 相 应 的 字段 填充 类 型 为 kK_sigaction 
的 new_ka 局 部 变量 的 sa_handler、sa_flags 和 sa _mask 字 段 : 

__get user(new_ka.sa.sa_handler, &act->sa_ handler):; 

__get user(lnew ka.sa.sa_flags, &act->sa_ flags) : 


__get_ user(lmask, &act->sa mask); 
Siginitset (&new ka.sa.sa mask, mask)}:; 


为 数 还 调用 ao_sigaction() 把 新 的 new_ka 表 拷贝 到 current->sig->action 的 在 
sig-1 位 置 的 表 项 中 (信号 的 编号 大 于 在 数组 中 的 位 置 ， 因 为 没有 0 信号 ): 


k = &current ->sig->action[sig-1]; 
nt Ce | 


*K = *act,; 
Sigdelsetmask (&k->sa.sa_mask, Sigmask (SIGKILL) | sigmask (SIGSTOP) ) ; 
If (k->sa.sa handler == SIG_IGN |1 (k->sa.sa handler == SIG_DFL && 
(Sig==SIGCONT || sig==SIGCHLD || Sig==SIGWINCH || sig==SIGURG)})) !( 
rm_from queue(sigmask (sig}), &current->signal->shared pending); 
t = current: 
do { 


rm_from aqueue{({sigmask {sig), &current->pending); 
recalc sigpending_tsk(t}),; 
t = next thread{t); 
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} while {(t != Current); 
} 


POSIX 标 准 规定 , 当 缺 省 操作 是 “Ignore 时 , 把 信号 操作 设置 成 SIG_IGN 或 SIG_DFL 
将 引起 同类 型 的 的 任 一 挂 起 信号 被 丢弃 。 此 外 还 要 注意 ,对 信号 处 理 程序 来 说 , 不 论 请 
求 屏 藏 的 信号 是 什么 ，SIGKILL 和 SIGSTOP 从 不 被 屏蔽 。 


sigaction() 系 统 调用 还 人 允许 用 户 初始 化 表 sigaction 的 sa_flags 字 段 。 在 表 11-6 
(本 章 前 面 ) 中 ， 我 们 列 出 了 这 个 字段 的 可 能 取 值 及 其 相关 的 含义 。 


原来 的 System V Unix 变 体 提供 了 signal () 系 统 调用 ， 它 仍 由 编程 人 员 广 泛 使 用 。 新 
近 的 C 库 调用 rt_sigaction() 实 现 了 signal()。 不 过 ，Linux 依然 支持 原来 的 C 库 ， 
并 提供 了 sys_signai() 服 务 例 程 ; 

new sa.sa.sa_hanaler = handler:; 

new_sa.Ssa.sa_flags = SA_ONESHOT | SA_NOMASK; 


ret = do_sigactionl{sig, &new_ Sa, &old sa): 
return ret ? ret : (unsigned long})old sa.sa.sa handler.; 


检查 挂 起 的 阻塞 信号 

sigpenqing () 系 统 调用 允许 进程 检查 挂 起 的 阻塞 信号 的 集合 ， 也 就 是 说 ， 检 查 信和 号 被 
阻塞 时 已 产生 的 那些 信号 。 相 应 的 服务 例 程 sys_sigpendaing () 只 作用 于 一 个 参数 set， 
即 用 户 变量 的 地 址 ， 必 须 将 位 数组 拷贝 到 这 个 变量 中 : 


sigorsets(&pending, &Current->pending.signal, 

&current->signal->shared pending.signal): 
sigandsets(&pending, &current->blocked, &pending); 
COpy._ to _ user(set, &kpending, 4); 


修改 阻塞 信号 的 集合 
sigprocmask() 系 统 调用 允许 进程 修改 阻塞 信号 的 集合 ,这 个 系统 调用 只 应 用 于 常规 信 
号 ( 非 实 时 信号 )。 相 应 的 sys_sigprocmask() 服 务 例 程 作用 于 三 个 参数 : 


OSet 


进程 地 址 空间 的 一 个 指针 ， 指 同 存放 以 前 位 掩 码 的 一 个 位 数组 。 


进程 地 址 空间 的 一 个 指针 ， 指 向 包含 新 位 掩 码 的 位 数组 。 
how 


一 个 标志 ， 可 以 有 下 列 的 一 个 值 : 
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SIG_BLOCK 

*set 位 掩 码 数 组 ， 指 定 必须 加 到 阻塞 信号 的 位 掩 码 数组 中 的 信号 。 
SIG_UNBLOCK 

*set 位 掩 码 数 组 ， 指 定 必须 从 阻塞 信号 的 位 掩 码 数组 中 删除 的 信号 。 
SIG_SETMASK 

*set 位 掩 码 数 组 ， 指 定 阻 塞 信号 新 的 位 掩 码 数 组 。 


sys_sigprocmask() 调 用 copy_from_user() 把 set 参数 所 指 问 的 值 拷贝 到 局 部 变量 
new_set 中 ,并 把 current 标准 阻塞 信号 的 位 掩 码 数 组 拷贝 到 old_set 局 部 变量 中 。 然 
后 根据 how 标志 来 指定 这 两 个 变量 的 值 : 


If {copy_from userl(lknew set, set, sizeof (*set))) 
return -EFAULT,; 
new_set &= ~{Sigmask (SIGKILL) |sigmask (SIGSTOP) ); 
Old_set = current->blocked.sig[0]; 
if (how == SIG_BLOCK) 
sigaddsetmask (kcurrent->blocked, new_ set}.; 


else 1f (how == SIG UNBLOCK) 

Sigdelsetmask (&CUrrent ->blocked, new_set); 
else if {how == SIG_ SETMASK) 

Current ->blocked.sig[0] = new_set; 
else 


return -EINVAL; 
recalc_sigpending (current)}); 
if (oset && COpy_to userl(oset, &old set, Sizeof (*oset))})) 
return -EFAULT, 
return 09; 


挂 起 进程 


sigsuspend () 系统 调用 把 进程 置 为 TASK_INTERRUPTIBLE 状态 ， 当 然 这 是 把 mask 
参数 指向 的 位 掩 码 数组 所 指定 的 标准 信号 阻塞 以 后 设置 的 。 只 有 当 一 个 非 忽 栈 、 非 阻塞 
的 信号 发 送 到 进程 以 后 ， 进 程 才 被 唤醒 。 


相应 的 sys_sigsuspend() 服 务 例 程 执行 下 列 这 些 语句 ， 


mask &= ~{Ssigmask (SIGKILL}) | sigmask (SIGSTOP}); 
Saveset = current->blocked,; 

siginitset (&current->blocked, mask).; 
recalc_sigpending (current),; 


regSs~->eax = ~-EINTR:; 

while (1) { 
Current->state = TASK JNTERRUPTIBLE: 
schedule{ );， 


if (do_signal (regs, &ksaveset!})) 


信号 2 








return -ELINTR; 
} 


schedule() 消 数 选 择 另 一 个 进程 运行 。 当 发 出 sigsuspend() 系 统 调用 的 进程 又 开始 执 
行 时 ，sys_sigsuspend() 调 用 do_signal() 函 数 来 传递 唤醒 了 该 进程 的 信和 号。 如 果 
do_signal () 的 返回 值 为 1]， 则 不 忽略 这 个 信号 。 因 此, 这 个 系统 调用 返回 -EINTR 出错 
码 后 终止 。 


sigsuspend() 系 统 调用 可 能 看 似 多 余 ， 因 为 sigprocmask() 和 sleep() 的 组 合 执 行 显 
然 能 产生 同样 的 效果 。 但 这 并 不 正确 ; 这 是 因为 进程 可 能 在 任何 时 候 交 错 执行 ， 你 必须 
意识 到 调用 一 个 系统 调用 执行 操作 A ， 紧 接着 又 凋 用 另 一 个 系统 调用 执行 操作 B， 并 不 
等 于 调用 一 个 单独 的 系统 调用 执行 操作 A， 然后 执行 操作 B。 


在 这 种 特殊 情况 中 ,sigprocmask () 可 以 在 调用 sleep () 之 前 解除 对 所 传递 信号 的 阻塞 。 
如 果 这 种 情况 发 生 , 进程 就 可 以 一 直 停 留 在 TASK_INTERRUPTIBLE 状 态 , 等 待 已 被 传递 
的 信息。 另 一 方面 ， 在 解除 阻塞 之 后 、schedule () 调 用 之 前 ， 因 为 其 他 进程 在 这 个 时 
间 间 隔 内 无 法 获得 CPU， 因 此 ，sigsuspenq() 系 统 调 用 不 允许 信号 被 发 送 。 


实时 信号 的 系统 调用 
因为 前 面 所 提 到 的 系统 调用 只 应 用 到 标准 信号 , 因此 , 必须 引入 另外 的 系统 调用 来 允许 
用 户 态 进程 处 理 实时 信号 。 


实时 信号 的 几 个 系统 调用 (rt_sigaction()、rt_sigpending()、 rt_sigprocmask () 
及 rt_sigsuspend()) 与 前 面 描述 的 类 似 ， 因 此 不 再 进一步 讨论 。 出 于 同样 的 理由 , 我 
们 也 不 进一步 讨论 处 理 实 时 信号 队列 的 两 个 系统 调用 : 


rt_sigqueueinfo!() 
发 送 一 个 实时 信号 以 便 把 它 加 入 到 目标 进程 的 共享 挂 起 信号 队列 中 。 一 般 通 过 标准 
库 国 数 sigqueue() 调 用 rt_sigqueueinfo()。 

rt_sigtimedwalit() 
把 阻塞 的 挂 起 信号 从 队列 中 删除 而 不 传递 它 , 并 向 调用 者 返回 信号 编号 ; 如 果 没 有 
阻塞 的 信号 在 挂 起 , 就 把 当前 进程 挂 起 一 个 固定 的 时 间 间 隔 。 一 般 通 过 标准 库 函 数 


sigwaitinfo() 和 sigtimedwait() 调 用 rt_sigtimedwait()。 





Linux 成 功 的 关键 因素 之 一 是 它 具 有 与 其 他 操作 系统 和 谐 共 存 的 能 力 。 你 能 够 透明 地 安 
六 具有 其 他 操作 系统 文件 格式 的 磁盘 或 分 区 ， 这 些 操作 系统 如 Windows、 其 他 版 本 的 
Unix， 其 至 像 Amiga 那样 的 市 场 占 有 率 很 低 的 系统 。 通 过 所 谓 的 虚拟 文件 系统 概念 ， 
Linux 使 用 与 其 他 Unix 变 体 相 同 的 方式 设法 支持 多 种 文件 系统 类 型 。 


虚拟 文件 系统 所 隐 含 的 思想 是 把 表示 很 多 不 同 种 类 文件 系统 的 共同 信息 放 和 内核 ;其 中 
有 一 个 字段 或 国 数 来 支持 Linux 所 支持 的 所 有 实际 文件 系统 所 提供 的 任何 操作 。 对 所 调 
用 的 每 个 读 、 写 或 其 他 国 数 ， 内 核 都 能 把 它们 替换 成 支持 本 地 Linux 文件 系统 、NTEFS 
文件 系统 ， 或 者 文件 所 在 的 任何 其 他 文件 系统 的 实际 函数 。 

本 章 讨论 Linux 虚拟 文件 系统 的 设计 自 标 , 结构 及 其 实现 。 集 中 讨论 五 个 Unix 标 准 文件 
类 型 中 的 三 个 文件 类 型 ， 即 普通 文件 、 目 录 文 件 和 符号 链接 文件 。 设 备 文件 将 在 第 十 三 
章 中 进行 介绍 , 而 管道 文件 会 在 第 十 九 章 中 进行 讨论 。 为 了 进一步 说 明 实 际 文件 系统 如 
何 工 作 ， 将 在 第 十 八 章 中 对 第 二 扩展 文件 系统 (Second Extended Filesystem) 进行 讨 
论 (几乎 所 有 的 Linux 系统 都 使 用 了 Ext2 ) 。 


虚拟 文件 系统 (VFS) 的 作用 


虚拟 文件 系统 (Virrual Filesystem) 也 可 以 称 之 为 虚拟 文件 系统 转换 (Virtual] Filesystem 
Switch，VFS)， 是 一 个 内 核 软件 层 ， 用 来 处 理 与 Unix 标准 文件 系统 相关 的 所 有 系统 调 
用 。 其 健壮 性 表现 在 能 为 各 种 文件 系统 提供 一 个 通用 的 接口 。 


例如 ， 假 设 一 个 用 户 输入 以 下 shell 命令 : 


454 
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§ cp /floppoy/TEST /tmp/test 


其 中 /Aioppy 是 MS-DOS 磁盘 的 一 个 安装 点 ， 而 Wimp 是 一 个 标准 的 第 二 扩展 文件 系统 
(second Extended Filesystom，Ext2) 的 目录 。 正如 图 12-1 (a) 所 示 ，VFS 是 用 户 的 应 
用 程序 与 文件 系统 实现 之 则 的 抽象 层 。 因 此, cp 程序 并 不 需要 知道 /fioppy/TEST 和 /tmp/ 
test 是 什么 文件 系统 类 型 。 相 反 , cp 程序 直接 与 VFS 交互， 这 是 通过 Unix 程序 设计 人 
员 都 熟悉 的 普通 系统 调用 来 进行 的 (参见 第 一 章 中 的 “文件 操作 的 系统 调用 “一 季 ) 。 ep 
的 执行 代码 如 图 12-1(b) 所 示 。 


inf = open(" et 0 RDONLY, 0); 
outf = open("/tmp/ 
0 RONLY|0 ci TRUNC, 0600); 
do { 
i = read(inf, buf, 4096); 
write(outf, buf, i); 


} while (i); 
close(outf); 


[ 司 ee close{inf); 


/tmp/test /floppy/TEST 





(可 
图 12-1: VFS 在 一 个 简单 的 文件 复制 操作 中 的 作用 
VFS 支持 的 文件 系统 可 以 划分 为 三 种 主要 类 型 ， 


磁盘 文件 系统 
这 些 文件 系统 管理 在 本 地 磁盘 分 区 中 可 用 的 存储 空 间或 者 其 他 可 以 起 到 磁盘 作用 的 
设备 (比如 说 一 个 USB 闪存 )。VEFS 支持 的 基于 磁盘 的 某 些 闭 名 文件 系统 还 有 : 


。 Linux 使 用 的 文件 系统 ,如 广泛 使 用 的 第 二 扩展 文件 系统 (Ext2), 新 近 的 第 三 
扩展 文件 系统 (Third Extended Filesystem,Ext3) 及 Reiser 文 件 系 统 (ReiserFS ) 
( 注 1)。 

* Unix 家 族 的 文件 系统 ， 如 sysv 文件 系统 (System V、Coherent、Xenix)、UFS 
(BSD、Solaris、NEXTSTEP), MINIX 文件 系统 及 VERITAS VxFS (SCO 
UnixWare)。 


注 1: 尽管 这 些 文件 系统 诞生 于 Linux， 人 但 已 经 槛 植 到 其 他 几 个 操作 系统 中 。 


一 WE 


。 微软 公司 的 文件 系统 ， 如 MS-DOS、VFAT ( Windows 95 及 随后 的 版 本 ) 及 
NTFS (Windows NT | 俯 及 随后 的 版 本 )。 

。 1SO9660 CD-ROM 文件 系统 (以 前 的 High Sierra 文件 系统 ) 和 通用 磁盘 格式 
(UDF) 的 DVD 文件 系统 。 

。 其 他 有 专利 权 的 文件 系统 ， 如 HPFS { IBM 公司 的 OS/2)、HFS ( 芋 果 公司 
的 Macintosh)、AFFS (Amiga 公司 的 快速 文件 系统 ) 以 及 ADFS (Acorn 公 


司 的 磁盘 文件 归档 系统 ) 。 
， 起 源 于 非 Linux 系统 的 其 他 日 志文 件 系 统 ， 如 IBM 的 JFS 和 SGI 的 XFS。 
克 络 文件 系统 


这 些 文 件 系统 允许 轻易 地 访问 属于 其 他 网 络 计算 机 的 文件 系统 所 包含 的 文件 .虚拟 
文件 系统 所 支持 的 一 些 著名 的 网 络 文件 系统 有 : NFS、Coda、AFS (Andrew 文件 
系统 )、CIFS (用 于 Microsoft Windows 的 通用 网 络 文件 系统 ) 以 及 NCP (Novell 
公司 的 NetWare Core Protocol) 。 


糙 殊 文件 系统 
这 些 文件 系统 不 管理 本 地 或 者 远程 磁盘 空间 。/proc 文件 系统 是 特殊 文件 系统 的 一 
个 典型 范例 (参见 稍 后 “特殊 文件 系统 “一 节 )。 


由 于 篇 幅 所 限 ， 本 书 只 详细 描述 Ex2 和 Ext3 文件 系统 (参见 第 十 八 章 ) ， 对 其 他 文件 系 
统 将 不 做 介绍 。 


在 第 一 章 “Unix 文 件 系 统 概述 “一 节 中 曾 提 到 ， Unix 的 目录 建立 了 一 棵 根 目录 为 “/ “的 
树 。 根 目录 包含 在 根 文件 系统 (roof filesystem) 中 ,在 Linux 中 这 个 根 文件 系统 通 当 
束 是 Ext2 或 Ext3 类 型 。 其 他 所 有 的 文件 系统 都 可 以 被 “安装 “在 根 文件 系统 的 子 目录 
中 ( 注 2)。 


基于 磁盘 的 文件 系统 通常 存放 在 硬件 块 设备 中 , 如 硬盘 .软盘 或 者 CD-ROM。Linux VFS 
的 一 个 有 用 特点 是 能 够 处 理 如 /aewioop0 这 样 的 虚拟 块 设备 , 这 种 设备 可 以 用 来 安装 普 
通 文 件 所 在 的 文件 系统 。 作 为 一 种 可 能 的 应 用 , 用 户 可 以 保护 自己 的 私有 文件 系统 ,这 
可 以 通过 把 自己 文件 系统 的 加 密 版 本 存放 在 一 个 普通 文件 中 来 实现 。 








注 2; 当 一 个 文件 系统 被 安装 在 某 一 个 目录 上 时 ,在 父 文件 系统 中 的 目录 内 容 不 再 是 可 访问 的 ， 
因为 任何 路 径 (包括 安装 点 ), 都 将 引用 已 安装 的 文件 系统 。 但 是 ， 当 被 安装 文件 东 统 却 
载 时 , 原 目录 的 内 容 又 可 再 现 , 这 种 令 人 惊讶 的 Unix 文 件 系 鱼 特点 可 以 由 系统 管理 负 用 
来 隐藏 文件 ， 他 们 只 需 把 一 个 文件 系统 安装 在 要 隐藏 文件 的 目录 中 即 可 。 
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第 一 个 虚拟 文件 系统 包含 在 1986 年 由 Sun 公司 发 布 的 SunOS 操作 系统 中 。 从 那 时 起 ， 
多 数 Unix 文件 系统 都 包含 VFS。 然 而 ，Linux 的 VFS 支持 最 广泛 的 文件 系统 。 


通用 文件 模型 

VFS 所 隐 含 的 主要 思想 在 于 引入 了 一 个 通用 的 文件 模型 (common file model)， 这 个 模 
型 能 够 表示 所 有 支持 的 文件 系统 。 该 模型 严格 反映 传统 Unix 文件 系统 提供 的 文件 模型 。 
这 并 不 奇怪 ， 因 为 Linux 希望 以 最 小 的 额外 开销 运行 它 的 本 地 文件 系统 。 不 过 ， 要 实现 
每 个 具体 的 文件 系统 ， 必 须 将 其 物理 组 织 结构 转换 为 虚拟 文件 系统 的 通用 文件 模型 。 


例如 , 在 通用 文件 模型 中 , 每 个 目录 被 看 作 一 个 文件 ,可 以 包含 若干 文件 和 其 他 的 子 目 
录 。 但 是 ,存在 几 个 非 Unix 的 基于 磁盘 的 文件 系统 ,它们 利用 文件 分 配 表 (File Allocation 
Table，FAT) 存 放 每 个 文件 在 目录 树 中 的 位 置 ， 在 这 些 文件 系统 中 ， 存 放 的 是 目录 而 不 
是 文件 。 为 了 符合 VFS 的 通用 文件 模型 , 对 上 述 基 于 FAT 的 文件 系统 的 实现 ，Linux 必 
须 在 必要 时 能 够 快速 建立 对 应 于 目录 的 文件 .这样 的 文件 只 作为 内 核 内 存 的 对 象 而 存在 。 


从 本 质 上 说 ，Linux 内 核 不 能 对 一 个 特定 的 函数 进行 硬 编码 来 执行 诸如 read() 或 ioctl1) 
这 样 的 操作 ,而 是 对 每 个 操作 都 必须 使 用 一 个 指针 ,指向 要 访 辐 的 具体 文件 系统 的 适当 函数 。 


为 了 进一步 说 明 这 一 概念 , 参见 图 12-1, 其 中 显示 了 内 核 如 何 把 read (|) 转换 为 专 对 MS- 
DOS 文 件 系 统 的 一 个 调用 ,应 用 程序 对 read() 的 调用 引起 内 核 调 用 相应 的 sys_reaa 1() 
服务 例 程 ,这 与 其 他 系统 调用 完全 类 似 。 我 们 在 本 章 后 面 会 看 到 , 文件 在 内 核 内 存 中 是 
由 一 个 file 数 据 结构 来 表示 的 。 这 种 数据 结构 中 包含 一 个 称 为 人 _op 的 宇 段 ， 该 字段 中 
包含 一 个 指向 专 对 MS-DOS 文件 的 函数 指针 ， 当 然 还 包括 读 文 件 的 函数 。sys_read 1() 
查找 到 指向 该 国 数 的 指针 ， 并 调用 它 。 这 样 一 来 ， 应 用 程序 的 read() 就 被 转化 为 相对 间 
接 的 调用 ， 
file->f_op->readi...|1 

与 之 类 似 ，write(}) 操 作 也 会 引发 一 个 与 输出 文件 相关 的 Ext2 写 国 数 的 执行 。 简 而 言 
之 ,内 核 负责 把 一 组 合适 的 指针 分 配给 与 每 个 打开 文件 相关 的 file 变 量 , 然后 负责 调用 
针对 每 个 具体 文件 系统 的 函数 (由 f_op 字 段 指 癌 )。 


你 可 以 把 通用 文件 模型 看 作 是 面向 对 象 的 , 在 这 里 , 对 象 是 一 个 软件 结构 ,其 中 既定 义 
了 数据 结构 也 定义 了 其 上 的 操作 方法 。 出 于 效率 的 考虑 ，Linux 的 编码 并 未 采用 面向 对 
象 的 程序 设计 语言 (比如 C++)。 因 此 对 象 作为 普通 的 C 数据 结构 来 实现 ， 数 据 结构 中 
指向 国 数 的 字段 就 对 应 于 对 象 的 方法 。 

通用 文件 模型 由 下 列 对 象 类 型 组 成 : 


超级 块 对 象 (superblock object) 


0 T= 


存放 已 安装 文件 系统 的 有 关 信 息 。 对 基于 磁盘 的 文件 系统 ,这 类 对 象 通常 对 应 于 存 
放 在 磁盘 上 的 文件 系统 控制 块 (filesystem control block)。 


索引 节点 对 全 (inode object) 
存放 关于 具体 文件 的 一 般 信息 。 对 基于 磁盘 的 文件 系统 ,这 类 对 象 通常 对 应 于 存放 
在 磁盘 上 的 文件 控制 块 (File control block)。 每 个 索引 市 点 对 象 都 有 一 个 索引 市 
点 号 ,这 个 节点 号 唯一 地 标识 文件 系统 中 的 文件 。 

驻 许 大 每 (Pile object) 
存放 打开 文件 与 进程 之 间 进 行 奖 互 的 有 关 信 息 。 这 类 信息 仅 当 进程 访问 文件 期 间 存 
在 于 内 核 内 存 中 。 

百灵 项 对 复 fdemry object) 
存放 目录 项 (也 就 是 文件 的 特定 名 称 ) 与 对 应 文件 进行 链接 的 有 关 人 信息。 每 个 磁 
盘 文 件 系统 都 以 自己 特有 的 方式 将 该 类 信息 存在 磁盘 上 。 


如 图 12-2 所 示 是 一 个 简单 的 示例 , 说 明 进 程 怎样 与 文件 进行 交互 。 三 个 不 同 进程 已 经 打 
开 同 一 个 文件 , 其 中 两 个 进程 使 用 同一 个 硬 链接 。 在 这 种 情况 下 ,其 中 的 每 个 进程 都 使 
用 目 己 的 文件 对 象 ,但 只 需要 两 个 目录 项 对 象 ， 每 个 硬 链接 对 应 一 个 目录 项 对 象 。 这 两 
个 目录 项 对 象 指向 同一 个 索引 市 点 对 象 , 该 索引 节点 对 象 标识 超级 块 对 家 ,以 及 随后 的 
普通 磁盘 文件 。 


—- -种 f dentry 
» 0 inode 





— i sb 


12-2: 进程 与 VFS 对 象 之 间 的 交互 
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- =- 一 一 


VFS 除 了 能 为 所 有 文件 系统 的 实现 提供 一 个 通用 接口 外 ,还 具有 另 一 个 与 系统 性 能 相关 
的 重要 作用 。 最 近 最 常 使 用 的 目录 项 对 象 被 放 在 所 谓 目录 项 高 速 缓存 (dentry cache) 的 
磁盘 高 速 缓存 中 ， 以 加 速 从 文件 路 径 名 到 最 后 一 个 路 径 分 量 的 索引 节点 的 转换 过 程 。 


一 般 说 来 ， 磁 盘 高 速 缓存 (disk cache) 属于 软件 机 制 ， 它 允许 内 核 将 原本 存在 磁盘 上 
的 某 些 信息 保存 在 RAM 中 ， 以 便 对 这 些 数据 的 进一步 访问 能 快速 进行 ， 而 不 必 慢 速 访 
问 磁盘 本 身 。 


注意 , 磁盘 高 速 缓存 不 同 于 硬件 高 速 缓存 或 内 存 高 速 缓存 , 后 两 者 都 与 磁盘 或 其 他 设备 
无 关 。 硬 件 高 速 缓存 是 一 个 快速 静态 RAM， 它 加 快 了 直接 对 慢 速 动态 RAM 的 请 求 ( 参 
见 第 二 章 中 的 “硬件 高 速 缓存 ”一 节 )。 内 存 高 速 缓存 是 一 种 软件 机 制 ， 引 入 它 是 为 了 
绕 过 内 核 内 存 分 配器 (参见 第 八 章 中 的 “slab 分 配器 ”一 节 )。 


除了 目录 项 高 速 缓存 和 索引 结 点 高 速 缓存 之 外 ，Linux 还 使 用 其 他 磁盘 高 速 缓存 。 其 中 
最 重要 的 一 种 就 是 所 谓 的 页 高 速 缓存 ， 我 们 将 在 第 十 五 章 中 进行 详细 介绍 。 


VFS 所 处 理 的 系统 调用 


表 12-1 列 出 了 VFS 的 系统 调用 ， 这 些 系 统 调 用 涉及 文件 系统 .普通 文件 、 目 隶 文件 以 
及 符号 链接 文件 。 另 外 还 有 少数 几 个 由 VFS 处 理 的 其 他 系统 调用 ， 诸 如 icoperm{ 1) 、 
ioctl()、pipe() 和 mknod()， 涉及 设备 文件 和 管道 文件 ， 这 些 将 在 后 续 章节 中 讨论 。 
最 后 一 组 由 VFS 处理 的 系统 调用 , 诸如 socket ()、connect () 和 bind() 属 于 套 接 字 系 
统 调用 , 并 用 于 实现 网 络 功 能 。 与 表 12-1 列 出 的 系统 调用 对 应 的 一 些 内 核 服 务 例 程 ,我 
们 会 在 本 章 或 第 十 八 章 中 陆续 进行 讨论 。 


表 12-1: 由 VFS 处 理 的 一 些 系 统 调用 


系统 调用 名 说 明 

mount () umount {() umount2() 安装 /外 载 文 件 系统 
sysfs!) 获取 文件 系统 信息 
statfs()} fstatfst{} statfs64() fstatfs641{) 获取 文件 系统 统计 信息 
ustat () 

chroot () pivot_root () 更 改 根 目录 

chdir() fchdir() getcwd() ， 对 当前 目录 进行 操作 
mkdir() rmdir() 创建 /删除 目录 
getdents() getdents64() readdir() 1ink() 对 目录 项 进行 操作 


unlink() rename() lookup dcookie{) 


readlink() symlinkt) 对 软 链接 进行 操作 
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表 12-1; 由 VFS 处 理 的 一 些 系统 调 用 ( 续 ) 


系统 调用 名 说 明 

chown () fchown() lchown() chown16() 更 改 文 件 所 有 者 性 
fchown16() 1chownl16 () 

chmod() fchmod{}) ucime() 更 改 文件 属性 
Stat (ij fstat(} lstat{) access() oldstat{) 


读 取 文件 状态 
oldfstat{} oldlstat(}) stat4() lstat641) : 
fstatédr) 

打开 /关闭 /创建 文件 


openl}) close{}) creat{} urmask 1) 


dup() dup2() fcnt1() fcnt1641() 对 文件 描述 符 进行 操作 

select{(}) poll!() 等 待 一 组 文件 描述 符 上 发 生 的 事件 
cruncate() ftruncate{) truncate64() 更 改 文件 长 诬 

ftruncate6d!() 

lseek() _llseek!) 更 改 文 件 指针 

read{} writel() readv() writev() sendfile!() 进行 文件 VO 操作 


sendfileb4{) readaheadt) 


io_setup(}) io submit(} ie ogetevents!() 


异步 MO (允许 多 个 读 和 写 请 求 ) 


io_cancel(} io destrovy!()} 


pread64() pwrite641) 搜索 并 访问 文件 
mmap() mmap2() munmap() madvise() mincore() 处 理 文 件 内 存 映 射 
remap_file Pages1) 

fdatasync() fsync() syncf) msyne() 同步 文件 数据 
flock() 处 理 文 件 锁 
setxattr() lsetxattr() fsetxattr() getxattr() 处 理 文 件 扩 展 属 性 


lgetxattr() fgetxattr{(} listxattr() llistxattr|() 
flistxattr() removexattr{t) lremvexattr() 
fremoyvexattr() 
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前 面 我 们 已 经 提 到 , VFS 是 应 用 程序 和 具体 文件 系统 之 间 的 一 层 。 不过, 在 某 些 情况 下 ， 
一 个 文件 操作 可 能 由 VFS 本 身 去 执行 , 无 需 调 用 低层 函数 。 例如, 当 某 个 进程 关闭 一 个 
打开 的 文件 时 ， 并 不 需要 涉及 磁盘 上 的 相应 文件 ， 因 此 VFS 只 需 释放 对 应 的 文件 对 象 。 
类 似 地 ， 当 系统 调用 lseek () 修改 一 个 文件 指针 ,而 这 个 文件 指针 是 打开 文件 与 进程 交 
互 所 涉及 的 一 个 属性 时 ，VFS 就 只 需 修 改 对 应 的 文件 对 象 ， 而 不 必 访 问 磁盘 上 的 文件 ， 
因此 ,无 需 调 用 具体 文件 系统 的 函数 。 从 某 种 意义 上 说 ， 可 以 把 VEFS 看 成 “通用 “文件 
系统 ， 它 在 必要 时 依赖 某 种 具体 文件 系统 。 
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VFS 的 数据 结构 
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每 个 VFS 对 象 都 存放 在 一 个 适当 的 数据 结构 中 ,其 中 包括 对 象 的 属性 和 指向 对 象 方法 表 
的 指针 。 内 核 可 以 动态 地 修改 对 象 的 方法 ,因此 可 以 为 对 象 建立 专用 的 行为 。 下 面 几 闻 
详细 介绍 YFS 的 对 象 及 其 内 在 关系 。 


超级 块 对 象 


超级 块 对 象 由 super_block 结构 组 成 ， 表 12-2 列举 了 其 中 的 字段 。 


表 12-2: 超级 块 对 象 的 字段 


类 型 

struct list_head 
dev_t 

unsigned long 


unsigned long 


unsigned char 


unsigqned char 


Unsigned long long 

struct file system type * 
struct super_operations * 
struct dquoct._operations * 
struct quotactl]_ops * 


struct export_operations 


unsigned long 
unsigned long 


struct dentry * 


struct rw_semaphore 


struct semaphore 


字段 
s_list 
s_dev 
s_blocksize 


sold blocksize 


s blocksize bits 
s_dirt 
s_maxbytes 
Ss_type 

Ss_Op 

dq_op 
5S_qcop 
Ss_eExport_op 
s_flags 
Ss_magic 
SS_root 
Ss_uUumount 
Ss_lock 
s_count 


s_Syncing 


s_need sync_fs 


说 明 

指向 超级 块 链表 的 指针 

设备 标识 符 

以 字 市 为 单位 的 块 大 小 

基本 块 设备 驱动 程序 中 提 到 的 以 字 
节 为 单位 的 块 大 小 

以 位 为 单位 的 块 大 小 
修改 ( 脏 ) 标志 

文件 的 最 长 长 度 

文件 系统 类 型 

超级 块 方法 

磁盘 限额 处 理 方 法 

磁盘 限额 管理 方法 

网 络 文件 系统 使 用 的 输出 操作 
安装 标志 

文件 系统 的 魔 数 

文件 系统 根 目 录 的 目录 项 对 象 

邱 载 所 用 的 信号 量 

超 极 块 信号 量 

引用 计数 器 

表示 对 超级 块 的 索引 节点 进行 同步 
的 标志 

对 超级 块 的 已 安装 文件 系统 进行 同 
步 的 标志 
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表 12-2， 超 级 块 对 象 的 字段 ( 续 ) 
类 型 


atomic_t 

VO1GQ * 

struct xattr handler ** 
struct list head 
struct list_head 
struct list_head 


struct hlist head 


struct list head 
struct block device * 


struct list head 


struct quota_info 


int 


walt_queue head_t 


charl] 


VOlG * 


struct semaphore 


U3 





字段 


s_active 
s_security 
Ss_xattr 
Ss_inodes 

Ss dirty 
SsS_10 


s_anon 


号 files 


ss_bdewv 


s_instances 


s_daquot 


s_ frozen 


swait unfrozen 


s_id 


s_fs_info 


s_ Vis rename_sSem 


s time_ gran 
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说 明 

次 级 引用 计数 器 

指向 超级 块 安全 数据 结构 的 指针 
指向 超级 块 扩展 属性 结构 的 指针 
所 有 索引 节点 的 链表 
改进 型 索引 节点 的 链表 

等 待 被 写 人 磁盘 的 索引 节点 的 链表 
用 于 处 理 远 程 网 络 文件 系统 的 匿名 
目录 项 的 链表 

文件 对 象 的 链表 

指向 块 设 备 驱动 程序 描述 符 的 指针 
用 于 给 定 文件 系统 类 型 的 超级 块 对 
象 链表 的 指针 (参见 后 面 的 “文件 
系统 类 型 注册 “一 节 ) 

隘 盘 限额 的 描述 符 

冻结 文件 系统 时 使 用 的 标志 (强制 
置 于 一 致 状态 ) 

进程 挂 起 的 等 待 队列 ， 直 到 文件 系 
统 被 解冻 

包含 超级 块 的 块 设备 名 称 

指向 特定 文件 系统 的 超级 块 信息 的 
指针 

当 VFS 通 过 目录 重 命名 文件 时 使 用 
的 信号 量 

了 时间 蕉 的 粒度 ( 纳 秒 级 ) 


所 有 超级 块 对 象 都 以 双向 循环 链表 的 形式 链接 在 一 起 。 链 表 中 第 一 个 元 素 用 
super_blocks 变 量 来 表示 ,而 超级 块 对 象 的 s_1ist 字 段 存放 指向 链表 相 邻 元 素 的 指针 。 
sb_lock 自 旋 锁 保 护 链表 免 受 多 处 理 器 系统 上 的 同时 访问 。 


s_fs_info 字 段 指 向 属于 具体 文件 系统 的 超级 块 信息 ;例如 ,我 们 在 第 十 八 章 将 会 看 到 ， 
假如 超级 块 对 象 指 的 是 Ext2 文 件 系 统 , 该 字段 就 指向 ext2_sb_info 数 据 结 构 , 该 结构 
包括 磁盘 分 配 位 掩 码 和 其 他 与 VFS 的 通用 文件 模型 无 关 的 数据 。 
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通常 , 为 了 效率 起 见 , 由 s_fs_info 字 有 段 所 指向 的 数据 被 复制 到 内 存 。 任 何 基 于 磁盘 的 
文件 系统 都 需要 访问 和 更 改 自己 的 磁盘 分 配 位 图 , 以 便 分 配 或 释放 磁盘 块 。 VFS 允许 这 
些 文件 系统 直接 对 内 存 超级 块 的 s_fs_info 字 段 进行 操作 ， 而 无 需 访问 磁盘 。 


但 是 , 这 种 方法 带 来 一 个 新 问题 : 有 可 能 VFS 超 级 块 最 终 不 骨 与 磁盘 上 相应 的 超级 块 同 
步 。 因此 ,有 必要 引入 一 个 s_dirt 标 志 来 表示 该 超级 块 是 否 是 脏 的 一 一 那 磁盘 上 的 数 
据 是 否 必须 要 更 新 。 缺乏 同步 还 会 导致 产生 我 们 熟悉 的 一 个 何 题 ; 当 一 台 机 器 的 电源 突 
然 断 开 而 用 户 来 不 及 正常 关闭 系统 时 , 就 会 出 现 文件 系统 月 洽 。 我 们 将 会 在 第 十 五 章 的 
“把 脏 页 写 人 磁盘 “一 市 中 看 到 ，Linux 是 通过 周期 性 地 将 所 有 “ 脏 “ 的 超级 块 写 回 磁盘 
来 减少 该 问题 带 来 的 危害 。 


与 超级 块 关联 的 方法 就 是 所 谓 的 超级 块 操作 。 这 些 操作 是 由 数据 结构 super_operations 
来 描述 的 ， 读 结构 的 起 始 地 址 存放 在 超级 块 的 s_op 字段 中 。 


每 个 具体 的 文件 系统 都 可 以 定义 自己 的 超级 块 操 作 。 当 VEFS 需要 调用 其 中 一 个 操作 时 ， 
比如 说 reaa_inoae()， 它 执行 下 列 操作 : 


sb->s_ op->read_ inodelinode):; 


这 里 sb 存放 所 涉及 超级 块 对 象 的 地 址 。super_operations 表 的 read_inode 字 7 段 存放 
这 一 国 数 的 地 址 ， 因 此 ， 这 一 国 数 被 直接 调用 。 


让 我 们 简要 描述 一 下 超级 块 操 作 ,其 中 实现 了 一 些 高 级 操作 ,比如 删除 文件 或 安装 磁盘 。 
下 面 这 些 操作 按照 它们 在 super_operation 表 中 出 现 的 顺序 来 排列 ， 


alloc_inode (sb) 
为 索引 节点 对 象 分 配 空间 ， 包 括 具体 文件 系统 的 数据 所 需要 的 空间 。 
destroy_inode (inode) 
撤消 索引 节点 对 象 ， 包 括 具 体 文件 系统 的 数据 ，。 
read_inode (inode) 
用 磁盘 上 的 数据 填充 以 参数 传递 过 来 的 索引 节点 对 象 的 字段 ， 索引 节点 对 象 的 
i_ino 字 有 段 标识 从 磁盘 上 要 读 取 的 具体 文件 系统 的 索引 市 上 后 。 
dirty_inode (inode) 
当 索 引 节 点 标记 为 修改 ( 脏 ) 时 调用 。 像 ReiserFS 和 Ext3 这 样 的 文件 系统 用 它 来 
更 新 磁盘 上 的 文件 系统 日 志 。 
write incde(inode,flag) 
用 通过 传递 参数 指定 的 索引 市 点 对 象 的 内 容 更 新 一 个 文件 系统 的 索引 市 后 ,索引 廊 
点 对 象 的 i_ino 字 段 标识 所 涉及 磁盘 上 文件 系统 的 索引 刷 点。 flag 参 数 表示 1O 操 
作 是 否 应 当 同 步 。 
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put_inode'(inode) 
释放 索引 节点 时 调用 (减少 该 节点 引用 计数 器 值 ) 以 执行 具体 文件 系统 操作 。 
drop_inode (inode) 
在 即将 撤消 索引 节点 时 调用 一 一 也 就 是 说 ， 当 最 后 一 个 用 户 释 放 该 索引 节点 时 ， 
实现 该 方法 的 文件 系统 通常 使 用 generic_qdrop_inode() 函数。 该 函数 从 VFS 数 
据 结构 中 移 走 对 索引 节点 的 每 一 个 引用 , 如 果 索 引 节 点 不 再 出 现在 任何 目录 中 , 则 
调用 超级 块 方 法 delete_inode 将 它 从 文件 系统 中 删除 。 
delete_inode (inode) 
在 必须 撤消 索引 节点 时 调用 。 删 除 内 存 中 的 VFS 索引 节点 和 磁盘 上 的 文件 数据 及 
元 数据 。 
put_super (super) 
释放 通过 传递 的 参数 指定 的 超级 块 对 象 (因为 相应 的 文件 系统 被 和 卸载 )。 
write super(super) 
用 指定 对 象 的 内 容 更 新 文件 系统 的 超级 块 。 
sync_fs{(tsb, wait)} 
在 清除 文件 系统 来 更 新 磁盘 上 的 具体 文件 系统 数据 结构 时 调用 (由 日 志文 件 系统 使 
由， 
write_super_lockfs (super) 
阻塞 对 文件 系统 的 修改 并 用 指定 对 象 的 内 容 更 新 超级 块 。 当 文件 系统 被 冻结 时 调用 
该 方法 ， 例如， 由 办 辑 着 管理 器 驱动 程序 (LVM) 调用。 
Unlockfs (super) 
取消 由 write_super_lockfs{) 超 级 块 方法 实现 的 对 文件 系统 更 新 的 阻塞 。 
statfs(super, buf) 
将 文件 系统 的 统计 信息 返回 ， 填 写 在 buf 缓冲 区 中 。 
remcunt_fts(Super， 寺 1 BGS， data) 
用 新 的 选项 重新 安装 文件 系统 〈 当 某 个 安装 选项 必须 被 修改 时 被 调用 ) 。 
clear_inode (inode) 
当 撤 消 磁 盘 索 引 市 点 执行 具体 文件 系统 操作 时 调用 。 
umount begin(super) 
中 断 一 个 安装 操作 ， 因 为 相应 的 印 载 操作 已 经 开始 (只 在 网 络 文件 系统 中 使 用 )。 
show_cptions{(seg_file, vfsmount) 


用 来 显示 特定 文件 系统 的 选项 。 
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Guota_reaaQlsuper，type，aQata，s1ze，ctftset) 
限额 系统 使 用 该 方法 从 文件 中 读 取 数 据 ， 该 文件 详细 说 明了 所 在 文件 系统 的 限制 
( 注 3)。 

quota_write(super, type, data, size, offset) 


限额 系统 使 用 该 方法 将 数据 写 人 文件 中 , 该 文件 详细 说 明了 所 在 文件 系统 的 限制 。 


前 述 的 方法 对 所 有 可 能 的 文件 系统 类 型 均 是 可 用 的 。 但 是 , 只 有 其 中 的 一 个 子 集 应 用 到 
每 个 具体 的 文件 系统 ， 未 实现 的 方法 对 应 的 字段 置 为 NULL 。 注 意 ， 系 统 没 有 定义 
get_super 方 法 来 读 超级 块 , 那么 ,内核 如 何 能 够 调用 一 个 对 象 的 方法 而 从 磁盘 读 出 该 
对 象 ? 我 们 将 在 描述 文件 系统 类 型 的 另 一 个 对 象 中 找到 等 价 的 get_sb 方 法 (参见 后 面 
的 “文件 系统 类 型 注册 “一 节 )。 


索引 节点 对 象 


文件 系统 处 理 文件 所 需要 的 所 有 信息 都 放 在 一 个 名 为 索引 节点 的 数据 结构 中 。 文 件 名 可 
以 随时 更 改 , 但 是 索引 节点 对 文件 是 唯一 的 , 并且 随 文件 的 存在 而 存在 。 内 存 中 的 索引 
节点 对 象 由 一 个 inode 数据 结构 组 成 ， 其 字段 如 表 12-3 所 示 。 


表 12-3: 索引 节点 对 象 的 字段 


类 型 字段 说 明 

Struct hlist node i_hash 用 于 散 列 链表 的 指针 

struct list_head 1_1ist 用 于 描述 索引 节点 当前 状态 的 链 
表 的 指针 

struct list_ head i sh _ list 用 于 超级 块 的 索引 节点 链表 的 指 
针 

struct 1ist_heaa i_dentry 引用 索引 节点 的 目录 项 对 象 链表 

unsligned long i_ino 索引 节点 号 

atomic_t i_count 引用 计数 器 

umode_t i_mode 文件 类 型 与 访问 权限 

unsigned int i_nlink 硬 链 接 数目 

uiat iuid 所 有 者 标识 符 


注 3: 限额 系统 (guota system)】 为 每 个 用 户 和 (或) 组 限制 了 它们 在 给 定 文件 系统 上 所 能 使 
用 的 空间 大 小 (参见 quotact1l1() 系统 调 用 )。 
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表 12-3， 索引 节点 对 象 的 字段 ( 续 ) 


类 型 字段 
yidt i_gid 
dev_t i_rdev 
loff_t i_size 
struct timespec i_ atime 
struct timespec 1_mt ime 
struct timespec 1_ctime 
unsigned int 1 blkbkits 
unsigned long i1_blksize 
unsigned long i_Vversion 
unsigned long i1_blocks 
unsigned short 1_bytes 
unsigned char i_sock 
spinlock_t i_lock 
struct semaphore i_sem 
struct rw_ semaphore i1_alloc_sem 
struct inode_operations * 1_op 
struct file operations * i_for 
struct super block * 1 sb 
struct file_ lock * i_flock 
struct address_ space 上 i _ mapping 
struct address_ space 1_data 
struct dquot * [] 1_dquot 
struct list head i_devices 
struct pipe_inode info * 1 _pipe 
struct block device * i1_bdev 


Struct cdew * 1_ Cdev 


init 1 cindex 


说 明 

组 标识 符 

实 设备 标识 符 

文件 的 字 节 数 

上 次 访问 文件 的 时 间 

上 次 写 文件 的 时 间 

上 次 修改 索引 节点 的 时 间 
块 的 位 数 

块 的 字 节 数 

版 本 号 (每 次 使 用 后 自动 递增 ) 
文件 的 块 数 

文件 中 最 后 一 个 块 的 字 刷 数 
如 果 文 件 是 一 个 套 接 字 则 为 非 零 
保护 索引 节点 一 些 字段 的 自 旋 锁 
索引 节点 信号 量 

在 直接 IO 文件 操作 中 避免 出 现 
竞争 条 件 的 读 / 写 信号 量 

索引 节点 的 操作 

缺 省 文件 操作 

指向 超级 块 对 象 的 指针 

指向 文件 锁链 表 的 指针 


指 同 address_space 对 象 的 指针 
(参见 第 十 五 章 ) 

文件 的 address_space 对 象 
索引 节点 磁盘 限额 

用 于 具体 的 字符 或 块 设备 索引 节 
点 链表 的 指针 (参见 第 十 三 章 ) 
如 果 文 件 是 一 个 管道 则 使 用 它 
(参见 第 十 九 章 ) 

指向 块 设备 驱动 程序 的 指针 
指向 字符 设备 驱动 程序 的 指针 
拥有 一 组 次 设备 号 的 设备 文件 的 
索引 


RU 


表 12-3: 索引 节点 对 象 的 字段 ( 续 ) 


类 型 字段 说 明 | 

_ _u32 i_generation 索引 节点 版 本 号 (由 某 些 文件 系 
统 使 用 ) 

unsigned long i_dnotify_mask 目录 通知 事件 的 位 掩 三 

struct dnotify_struct * i_dnot ify 用 于 目录 通知 

unsigned long i_state 索引 节点 的 状态 标志 

unsicnedad long dirtied_when 索引 节点 的 和 弄 脏 时 间 (以 节拍 为 
单位 ) 

unsiaqned int i_flags 文件 系统 的 安装 标志 

atomic_t i_writecount 用 于 号 进程 的 引用 计数 器 

void * i_security 指向 索引 节点 安全 结构 的 指针 

void * u.generic_ip 指向 私有 数据 的 指针 

seqcount_t i size seaqcount SMP 系统 为 1_size 字 段 获取 一 
致 值 时 使 用 的 顺序 计数 器 


每 个 索引 节点 对 象 都 会 复制 磁盘 索引 布点 包含 的 一 些 数据 ,比如 分 配给 文件 的 磁盘 块 数 。 
如 果 i_state 字 段 的 值 等 于 I_DIRTY_SYNC、 I_DIRTY_DATASYNC 或 I_DIRTY_PAGES， 
该 索引 节点 就 是 “ 脏 “ 的 ， 也 就 是 说 ， 对 应 的 磁盘 索引 节点 必须 被 更 新 。I_DIRTY 宏 
可 以 用 来 立即 检查 这 三 个 标志 的 值 (详细 内 容 参 见 后 面 )。i_state 字段 的 其 他 值 有 
I_LOCK (涉及 的 索引 节点 对 象 处 于 IO 传送 中 )、I_FREEING (索引 节点 对 象 正 在 被 
释放 )、I_CLEAR (索引 节点 对 象 的 内 容 不 再 有 意义 ) 以 及 I_NEW (索引 节点 对 象 已 经 
分 配 但 还 没有 用 从 磁盘 索引 节点 读 取 来 的 数据 填充 )。 


每 个 索引 节点 对 象 总 是 出 现在 下 列 双向 循环 链表 的 某 个 链表 中 (所 有 情况 下 , 指向 相 邻 
元 素 的 指针 存放 在 i_1list 字段 中 ): 


。 有 效 未 使 用 的 索引 节点 链表 , 典型 的 如 那些 镜像 有 效 的 磁盘 索引 节点 , 且 当 前 未 被 
任何 进程 使 用 。 这 些 索 引 节 点 不 为 胜 , 且 它 们 的 1_count 字段 置 为 0。 链表 中 的 首 
元 素 和 尾 元 素 是 由 变量 inode_unused 的 next 字段 和 prev 字 段 分 别 指 向 的 。 这 个 
链表 用 作 磁 盘 高 速 缓存 。 

. 正在 使 用 的 索引 节点 链表 , 也 就 是 那些 镜像 有 效 的 磁盘 索引 节点 , 且 当 前 被 某 些 进 
程 使 用 。 这 些 索 引 节 点 不 为 脏 , 但 它们 的 i_count 字段 为 正 数 。 链表 中 的 首 元 素 和 
尾 元 素 是 由 变量 inode_in_use 引用 的 ，。 

。 ” 脏 索 引 节 点 的 链表 。 链 表 中 的 首 元 素 和 尾 元 素 是 由 相应 超级 块 对 象 的 s_dirty 字 段 
引用 的 。 


这 些 链表 都 是 通过 适当 的 索引 节点 对 象 的 i_list 字段 链接 在 一 起 的 。 


此 外 ， 每 个 索引 节点 对 象 也 包含 在 每 文件 系统 (per-filesystem) 的 双向 循环 链表 中 ， 链 
表 的 涉 存 放 在 超级 块 对 象 的 s_inodes 字段 中 : 索引 节点 对 象 的 i_spb_list 字段 存放 了 
指向 链表 相 邻 元 素 的 指针 。 


最 后 , 索引 节点 对 象 也 存放 在 一 个 称 为 inode_hashtable 的 散 列表 中 。 散 列表 加 快 了 对 
索引 节点 对 象 的 搜索 ,前 提 是 系统 内 核 要 知道 索引 节点 号 及 文件 所 在 文件 系统 对 应 的 超 
级 块 对 象 的 地 址 。 由 于 散 列 技术 可 能 引发 冲突 ， 所 以 索引 节点 对 象 包含 一 个 i_hash 字 
段 , 该 字段 中 包含 向 前 和 向 后 的 两 个 指针 , 分 别 指 向 散 列 到 同一 地 址 的 前 一 个 索引 市 反 
和 后 一 个 索引 节点 ， 该 字段 因此 创建 了 由 这 些 索 引 市 点 组 成 的 一 个 双向 链表 。 


与 索引 节点 对 象 关 联 的 方法 也 叫 索引 节点 操作 。 它 们 由 inodqe_operations 结 构 来 摘 述 ， 
读 结 构 的 地 址 存放 在 i _op 字段 中 。 以 下 是 索引 节点 的 操作 ， 以 它们 在 inode_ 
operations 表 中 出 现 的 次 序 来 排列 : 


create{dir, dentry, mode, nameidata) 
在 某 一 目录 下 ， 为 与 目录 项 对 象 相关 的 普通 文件 创建 一 个 新 的 磁盘 索引 节点 。 
lookup (ldir, dentry, nameidata) 
为 包含 在 一 个 目录 项 对 象 中 的 文件 名 对 应 的 索引 节点 查找 目录 。 
link{told dentry, dir, new_ enLry) 
创建 一 个 新 的 名 为 new_dentry 的 硬 链 接 ， 它 指向 air 目录 下 名 为 oldq_dentry 的 
全 
unlink (dir, dentry) 
从 一 个 目录 中 删除 目录 项 对 象 所 指定 文件 的 硬 链接 。 
symlink{(dir, dentry, symname) 
在 某 个 目录 下 ， 为 与 目录 项 对 象 相关 的 符号 链接 创建 一 个 新 的 索引 市 点 。 
mkdir (dir, dentry, mode) 
在 某 个 目录 下 ， 为 与 目录 项 对 象 相关 的 目录 创建 一 个 新 的 索引 节点 。 
rmdir(dir, dentry) 
从 一 个 目录 删除 子 目录 ， 子 目录 的 名 称 包含 在 目录 项 对 象 中 。 
mknod(ldir, dentry, mode, rdev) 
在 某 个 目录 中 , 为 与 目录 项 对 象 相关 的 特定 文件 创建 一 个 新 的 磁盘 索引 节点 。 其 中 
参数 mode 和 rdev 分别 表示 文件 的 类 型 和 设备 的 主 次 设备 号 。 


丰 拟 条 统 “9 


rename (old_dir, cold dentry, new_dQir, new_dentry) 
将 old_qdir 目 录 下 由 ol9_entry 标 识 的 文件 称 到 new_dir 目 录 下 。 新 文件 名 包含 
在 new_dentry 指向 的 目录 项 对 象 中 。 
readlink (dentry, buffer, buflen)} 
和 将 目录 项 所 指定 的 符号 链接 中 对 应 的 文件 路 径 名 拷贝 到 buffer 所 指定 的 用 户 态 内 
存 区 。 
follow link(inode, nameidata) 
解析 索引 节点 对 象 所 指定 的 符号 链接 如果 该 符 号 链接 是 一 个 相对 路 径 名 , 则 从 第 
二 个 参数 所 指定 的 目录 开始 进行 查找 。 
put_linktdentry, nameidatal 
释放 由 follow_link 方 法 分 配 的 用 于 解析 符号 链接 的 所 有 临时 数据 结构 。 
truncate (inode)} 
修改 与 索引 节点 相关 的 文件 长 度 。 在 调用 该 方法 之 前 , 必须 将 inode 对 象 的 i_size 
字段 设置 为 需要 的 新 长 度 值 。 
permission(inode, mask, namelidata) 
检查 是 否 允 许 对 与 索引 节点 所 指 的 文件 进行 指定 模式 的 访问 。 
setattrldentry, iattr) 
在 触及 索引 节点 属性 后 通知 一 个 “修改 事件 “。 
getattr(lmt, dentry, kstat) 
由 一 些 文件 系统 用 于 读 取 索引 节点 属性 。 
setxattr(dentry, name, value, size, flags) 
为 索引 布点 设置 “扩展 属性 “(扩展 属性 存放 在 任何 索引 布点 之 外 的 磁盘 块 中 )。 
getxattrldentry, name, buffer, size) 
获取 索引 证 点 的 扩展 属性 ，。 
listxattr (dentry, lbuffer, sizel) 
获取 扩展 属性 名 称 的 整个 链表 。 


removexattridentry, name) 


删除 索引 节点 的 扩展 属性 。 


上 述 列 举 的 方法 对 所 有 可 能 的 索引 节点 和 文件 系统 类 型 都 是 可 用 的 。 不 过 , 只 有 其 中 的 
一 个 子 集 应 用 到 某 一 特定 的 索引 布点 和 文件 系统 ; 未 实现 的 方法 对 应 的 字段 被 置 为 


NULL 。 
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文件 对 象 

文件 对 象 描述 进程 怎样 与 一 个 打开 的 文件 进行 交互 ,文件 对 象 是 在 文件 被 打开 时 创建 的 ， 
由 一 个 file 结 构 组 成 ， 其 中 包含 的 字段 如 表 12-4 所 示 。 注 意 ,文件 对 象 在 磁盘 上 没有 
对 应 的 映像 ， 因 此 file 结 构 中 没有 设置 “ 脏 “ 字 段 来 表示 文件 对 象 是 否 已 被 修改 。 


表 12-4: 文件 对 象 的 字段 


类 型 字段 说 明 

struct list_ head f list 用 于 通用 文件 对 象 链表 的 指针 

struct dentry * f_dentry 与 文件 相关 的 目录 项 对 象 

struct vfsmount * f_vfsmmt 含有 该 文件 的 已 安装 文件 系统 

struct file operations * f£f_op 指向 文件 操作 表 的 指针 

atomic t £f_count 文件 对 象 的 引用 计数 器 

unsigned int f_flags 当 打 开 文 件 时 所 指定 的 标志 

mode 上 f_mode 进程 的 访问 模式 

int f_error 网 络 写 操作 的 错误 码 

loff 上 f_pos 当前 的 文件 位 移 量 (文件 指针 ) 

struct fcwn_ struct f_owner 通过 信号 进行 WO 事件 通知 的 数据 

unsigned int f_uid 用 户 的 UID 

unsigned int f_gqid 用 户 的 GID 

struct file ra_state f_ra 文件 预 读 状 态 【参见 第 十 六 章 ) 

size t f_maxcount 一 次 单一 的 操作 所 能 读 或 写 的 最 大 字 节 数 ( 当 
前 设置 为 2%-1) 

unsigned long f_version 版 本 号 ， 每 次 使 用 后 自动 递增 

void * f_security ”指向 文件 对 象 的 安全 结构 的 指针 

void * private_data 指向 特定 文件 系统 或 设备 驱动 程序 所 需 的 数据 
的 指针 

struct list_head f ep_ links 文件 的 事件 轮 询 等 待 者 链表 的 头 

spinlock_t f_ep_ lock 保护 £f_ep_links 链表 的 自 旋 锁 


struct address_space * f_mapping 指向 文件 地 址 空间 对 象 的 指针 (参见 第 十 五 章 ) 





存放 在 文件 对 象 中 的 主要 信息 是 文件 指针 , 即 文件 中 当前 的 位 置 , 下 一 个 操作 将 在 该 位 
置 发 生 。 由 于 几 个 进程 可 能 同时 访问 同一 文件 , 因此 文件 指针 必须 存放 在 文件 对 象 而 不 
是 索引 布点 对 象 中 。 


硅 林 答 作 和 度 i 





文件 对 象 通过 一 个 名 为 filp 的 slab 高 速 缓存 分 配 , filp 挨 述 符 地 址 存放 在 filp_cachep 
变量 中 。 由 于 分 配 的 文件 对 象 数目 是 有 限 的 , 因此 files_stat 变量 在 其 max_files 字 有 段 
中 指定 了 可 分 配 文件 对 象 的 最 大 数目 ， 也 就 是 系统 可 同时 访问 的 最 大 文件 数 ( 注 4)。 


“在 使 用 “文件 对 象 包含 在 由 具体 文件 系统 的 超级 块 所 确立 的 几 个 链表 中 。 每 个 超级 块 
对 象 把 文件 对 象 链 表 的 头 存放 在 s_files 字 段 中 , 因此 , 属于 不 同文 件 系 统 的 文件 对 象 
就 包含 在 不 同 的 链表 中 ,链表 中 分 别 指 向 前 一 个 元 素 和 后 一 个 元 素 的 指针 都 存放 在 文件 
对 象 的 f_list 字段 中 。files_lock 自 旋 锁 保护 超级 块 的 s_files 链 表 免 受 多 处 理 器 系 
统 上 的 同时 访问 。 


文件 对 象 的 f_count 字段 是 一 个 引用 计数 器: 它 记 录 使 用 文件 对 象 的 进程 数 ( 记 住 ,以 
CLONE_FILES 标 志 创 建 的 轻 量 级 进程 共享 打开 文件 表 , 因此 它们 可 以 使 用 相同 的 文件 
对 象 )。 当 内 核 本 身 使 用 该 文件 对 象 时 也 要 增加 计数 器 的 值 一 一 例如 , 把 对 象 插入 链表 
中 或 发 出 Gup () 系统 调用 时 。 


当 VFS 代表 进程 必须 打开 一 个 文件 时 , 它 调用 get_empty_filp() 国 数 来 分 配 一 个 新 的 
文件 对 象 。 该 国 数 调用 kmem_cache_allocf) 从 filp 高 速 缓存 中 获得 一 个 空闲 的 文件 对 
象 ， 然 后 初始 化 这 个 对 象 的 字段 ， 如 下 所 示 : 

memset{f, 0, sizeof (*£}):; 

INIT_ LIST HEAD(&f->f_ep_links},; 

spin_ lock init (gf-=f ep lock):; 

atomic set (gf-sf count, 1}: 

f=sf uid = current ->fsuld: 

f=»f _ gid = current->fsgid; 

f=-»f owner.lock = RW_ LOCK UNLOCKEED: 

INIT LIST HEAD(&gf=»f list}; 

f->f maxcount = INT_ MAX; 


正如 在 “通用 文件 模型 “一 节 中 讨论 过 的 那样 ,每 个 文件 系统 都 有 其 自己 的 文件 操作 集 
合 , 执行 诸如 读 写 文件 这 样 的 操作 。 当 内 核 将 一 个 索引 节点 从 磁盘 装 入 内 存 时 , 就 会 把 
指向 这 些 文件 操作 的 指针 存放 在 file_cperations 结 构 中 ,而 该 结构 的 地 址 存放 在 该 索 
引 市 点 对 象 的 i_fop 字 段 中 。 当 进程 打开 这 个 文件 时 , VFS 就 用 存放 在 索引 节点 中 的 这 
个 地 址 初始 化 新 文件 对 象 的 f_op 字 段 , 使 得 对 文件 操作 的 后 续 调 用 能 够 使 用 这 些 函 数 。 
如 果 需 要 ，VFS 随后 也 可 以 通过 在 f_op 字 段 存 放 一 个 新 值 而 修改 文件 操作 的 集合 。 


注 4: 内 核 初 始 化 期 间 ，fEiles_init1) 函 数 把 max_files 字 段 设 置 为 可 用 RAM 大 小 的 [1/10 
(以 生字 节 为 单位 )。 不 过 ， 系 统管 理 员 可 以 通过 写 上 procysyfsfile-maxr 文 件 来 修改 这 个 
值 。 而 有 全， 即使 max_files 文 件 对 象 已 经 被 分 配 ， 超 组 用 户 也 总 是 可 以 蔬 查 一 个 文件 
对 象 。 
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下 面 的 列表 描述 了 文件 的 操作 ， 以 它们 在 file_operations 表 中 出 现 的 次 序 来 排列 ， 


llseek(file, offset, origin) 
更 新 文件 指针 。 
read{file, buf, count, offset) 
从 文件 的 *offset 处 开始 读 出 count 个 字 节 ， 然后 增加 *offset 的 值 (一 般 与 文 
件 指针 对 应 )。 
aio_readlreq, buf, len, pos) 
启动 一 个 异步 IO 操作， 从 文件 的 pos 处 开始 读 出 len 个 字 节 的 数据 并 将 它们 放 入 
buf 中 (引入 它 是 为 了 支持 ic_submit 1!) 系统 调用 )。 
writeifile, buf, count, offset) 
从 文件 的 *offset 处 开始 写 入 count 个 字 节 ， 然 后 增加 *offset 的 值 (一 般 与 文 
件 指针 对 应 )。 
aio_write(regq, buf, len, pos) 
局 动 一 个 异步 HO 操作 ， 从 buf 中 取 len 个 字 节 写 入 文件 pos 处。 
readdir{dir, dirent, filldir) 
返回 一 个 目录 的 下 一 个 目录 项 ,返回 值 存 人 参数 Girent， 参数 filldir 存放 一 个 
辅助 函数 的 地 址 ， 该 国 数 可 以 提取 目录 项 的 各 个 字段 。 
poll (file, poll_ table) 
检查 是 否 在 一 个 文件 上 有 操作 发 生 ,， 如 果 没 有 则 睡眠 ， 直 到 该 文件 上 有 操作 发 生 。 
ijoctl{inode, file, cmd, arg) 
阿 一 个 基本 硬件 设备 发 送 命令 。 该 方法 只 适用 于 设备 文件 。 
Unlocked_ioctl(file, cmd, arg) 
与 ioct1 方 法 类 似 , 但 是 它 不 用 获得 大 内 核 锁 (参见 第 五 章 的 “大 内 核 锁 “一 市 )。 
我 们 认为 所 有 的 设备 驱动 程序 和 文件 系统 都 将 使 用 这 个 新 方法 而 不 是 ioctl 方法 。 
compat_icoctl(file，cmd，argl) 
64 位 的 内 核 使 用 该 方法 执行 32 位 的 系统 调用 ioct11() 。 
mmapl!file, vma) 
执行 文件 的 内 存 映射 , 并 将 映射 放 人 进程 的 地 址 空间 (参见 第 十 六 章 的 “内 存 上 映射 
“地 )。 
open(inode, file) 
通过 创建 一 个 新 的 文件 对 象 而 打开 一 个 文件 ， 并 把 它 链接 到 相应 的 索引 节点 对 象 
《参见 本 章 后 面 的 “open() 系 统 调 用 “一 节 ) 。 
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flush(file) 
当 打 开 文 件 的 引用 被 关闭 时 调用 该 方法 。 访 方法 的 实际 用 途 取决 于 文件 系统 。 
release linode, file} 
释放 文件 对 象 。 当 打开 文件 的 最 后 一 个 引用 被 关闭 时 ( 即 文件 对 象 £_count 字 段 的 
值 变 为 0 时 ) 调用 该 方法 。 
fsync(lfile, dentry, flag) 
将 文件 所 缓存 的 全 部 数据 写 人 磁盘 。 
aio_fsynct{req, flag) 
局 动 一 次 异步 I/O 刷新 操作 。 
fasync{tfd, file, on) 
通过 信号 来 局 用 或 禁止 WO 事件 通告 。 
lock (lfile, cmd, fiile_lock) | 
对 file 文 件 申请 一 个 锁 (参见 本 章 后 面 的 “文件 加 锁 “ 一 节 )。 
readv (file, vector, count, offset) 
从 文件 中 读 字 节 ， 并 把 结果 放 入 vector 描 述 的 缓冲 区 中 ; 缓冲 区 的 个 数 由 count 
指定 。 
writev (file, vector, count, offset) 
把 vector 描述 的 缓冲 区 中 的 字 节 写 入 文件 ; 缓冲 区 的 个 数 由 count 指定 。 
sendfile{in_file, offset, count, file_send actor, out_file) 
把 数据 从 in_file 传 送 到 out_file (引入 它 是 为 了 支持 sendfile() 系统 调用 )，。 
sendpage (file, page, offset, size, pointer, fill) 
把 数据 从 文件 传送 到 页 高 速 缓存 的 页 ; 这 个 低层 方法 由 sendfile() 和 用 于 套 接 字 
的 网 络 代 码 使 用 。 
get_unmapped_area(lfile, addr, len, offset, flags) 
获得 一 个 未 用 的 地 址 范围 来 映射 文件 。 
check_flags'(flags) 
当 设置 文件 的 状态 标志 (F_SETFL 命令 ) 时 ，fcnt11() 系 统 调用 的 服务 例 程 调用 该 
方法 执行 附加 的 检查 。 当 前 只 适用 于 NFS 网 络 文件 系统 。 
dir_notifylfile, arg) 
当 建 立 一 个 目录 更 改 通告 (F_NOTIFY 命令 ) 时 ， 由 fcnt1() 系 统 调用 的 服务 例 程 
调用 该 方法 。 当 前 只 适用 于 CIFS (Common Internet File system， 公 用 互联 网 文 
件 系统 ) 网 络 文件 系统 。 
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flocktfile, flag, lock)} 
用 于 定制 flock() 系 统 调用 的 行为 。 官 方 Linux 文件 系统 不 使 用 该 方法 。 


以 上 描述 的 方法 对 所 有 可 能 的 文件 类 型 都 是 可 用 的 。 不 过 ， 对 于 一 个 具体 的 文件 类 型 ， 
只 使 用 其 中 的 一 个 子 集 ， 那些 未 实现 的 方法 对 应 的 宇 段 被 置 为 NULL。 


目录 项 对 和 象 


在 “通用 文件 模型 “一 节 中 我 们 曾 提 和 到，VFS 把 每 个 目录 看 作 由 若干 子 目录 和 文件 组 成 
的 一 个 普通 文件 。 在 第 十 八 章 我 们 将 会 讨论 如 何在 具体 的 文件 系统 上 实现 目录 。 然 而 ， 
一 旦 目录 项 被 读 人 人 内存 ，VFS 就 把 它 转换 成 基于 dentry 结构 的 一 个 目录 项 对 象 ， 该 结 
构 的 字段 如 表 12-5 所 示 。 对 于 进程 查找 的 路 径 名 中 的 每 个 分 量 , 内 核 都 为 其 创建 一 个 目 
录 项 对 象 ;， 目录 项 对 象 将 每 个 分 量 与 其 对 应 的 索引 节点 相 联系 。 例 如 ， 在 查找 路 径 名 / 
impyrest 时 ,内 核 为 根 目录 “/“ 创 建 一 个 目录 项 对 象 , 为 根 目 录 下 的 tmp 项 创建 一 个 第 
二 级 目录 项 对 象 ， 为 /imp 目录 下 的 rest 项 创建 一 个 第 三 级 目录 项 对 象 。 


请 注意 , 目录 项 对 象 在 磁盘 上 并 没有 对 应 的 映像 , 因此 在 dentry 结 构 中 不 包含 指出 该 对 
象 已 被 修改 的 字段 。 目 录 项 对 象 存 放 在 名 为 dentry_cache 的 slab 分 配器 高 速 缓存 中 。 因 
此 ， 目 录 项 对 象 的 创建 和 删除 是 通过 调用 kmem_cache_alloc() 和 kmem_cache_free1() 
实现 的 。 


表 12-5: 目录 项 对 象 的 字段 


类 型 字段 说 明 

atomic_t d_count 目录 项 对 象 引 用 计数 器 

unsianed int d_flag 目录 项 高 速 缓存 标志 

sPinlock 上 d_lock 保护 目录 项 对 象 的 自 旋 锁 

struct inode * d_inode 与 文件 名 关联 的 索引 节 后 

struct dentry * d_parent 父 自 录 的 目录 项 对 象 

struct gqstr d_name 文件 名 

struct list_head d_lru 用 于 未 使 用 目录 项 链表 的 指针 

struct list_head dd _ child 对 目录 而 言 ,用 于 同一 父 目录 中 的 目录 项 
链表 的 指针 

struct list head Ga_supairs 对 目录 而 言 ， 子 目录 项 链表 的 头 

struct list_head d_alias 用 于 与 同一 索引 节点 (别名) 相关 的 目录 
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表 12-5; 目录 项 对 象 的 字段 


类 型 字段 说 明 

unsigned long d_time 由 9d_revalidate 方法 使 用 

struct dentry_operations* ad_op 目录 项 方法 

struct super_block * d_sb 文件 的 超级 块 对 象 

void * “gd_fsdata 依 球 于 文件 系统 的 数据 

struct rcu head dQ_rcu 回收 目录 项 对 象 时 ， 由 RCU 描述 符 使 用 
(参见 第 五 章 的 “ 读 一 拷贝 一 更 新 (RCU)” 
一 节 ) 

struct dcookie struct * d_cookie ”指向 内 核 配 图 文件 使 用 的 数据 结构 的 指针 

struct hlist_node d_hash 指向 散 列 表 表 项 链表 的 指针 

int d_mounted 对 目录 而 言 ,， 用 于 记录 安装 该 目录 项 的 文 
件 系 统 数 的 计数 器 

unsigned char [] q_iname 存 才 短文 件 名 的 空 同 


每 个 且 录 项 对 象 可 以 处 于 以 下 四 种 状态 之 一 : 


空闲 状态 (free) 
处 于 该 状态 的 目录 项 对 象 不 包括 有 效 的 信息 ， 且 还 没有 被 YFS 使 用 。 对 应 的 内 存 
区 由 slab 分 配器 进行 处 理 。 


薪 使 用 状态 (unused) 
处 于 该 状态 的 目录 项 对 象 当 前 还 没有 被 内 核 使 用 。 该 对 象 的 引用 计数 器 GQ_count 的 
值 为 0, 但 其 9_inode 字 段 仍 然 指 向 关联 的 索引 节点 。 该 目录 项 对 象 包 含有 效 的 信 
息 ， 但 为 了 在 必要 时 回收 内 存 ， 它 的 内 容 可 能 被 丢弃 。 

正 症 使 用 状态 (in use) 
处 于 该 状态 的 目录 项 对 象 当 前 正在 被 内 核 使 用 。 读 对 象 的 引用 计数 器 a_count 的 
值 为 正 数 , 其 a_inode 字 段 指 向 关联 的 索引 节点 对 象 。 读 目录 项 对 象 包含 有 效 的 信 
息 ， 并 且 不 能 被 丢弃 。 

负 状 起 {negative) 
与 目录 项 关联 的 索引 节点 不 复 存 在 , 那 是 因为 相应 的 磁盘 索引 市 点 已 被 删除 , 或 者 
因为 目录 项 对 象 是 通过 解析 一 个 不 存在 文件 的 路 径 名 创建 的 。 目 录 项 对 象 的 
q_inode 字 段 被 置 为 NULL ,但 该 对 象 仍然 被 保存 在 目录 项 高 速 缓存 中 ， 以 便 后 续 
对 同一 文件 目录 名 的 查找 操作 能 够 快速 完成 。 术 语 “ 负 状态 “容易 使 人 误解 ,因为 
根本 不 涉及 任何 负 值 。 
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与 目录 项 对 象 关 联 的 方法 称 为 目录 项 操作 。 这 些 方 法 由 dentry_operations 结 构 加 以 描 
述 , 该 结构 的 地 址 存放 在 目录 项 对 象 的 d_ocp 字 段 中 。 尽管 一 些 文件 系统 定义 了 它们 自己 
的 目录 项 方法 ,但 是 这 些 字段 通常 为 NULL ,而 VFS 使 用 缺 省 函数 代替 这 些 方法 。 以 下 
按照 其 在 aentry_operakticns 表 中 出 现 的 顺序 来 列举 一 些 方法 。 


d_revalidateldentry, nameidata) 
在 把 目录 项 对 象 转换 为 一 个 文件 路 径 名 之 前 ,判定 该 目录 项 对 象 是 否 仍 然 有 效 。 缺 
省 的 YFS 国 数 什么 也 不 做 ， 而 网 络 文件 系统 可 以 指定 自己 的 函数 。 

dd_hashidentry, name) 
生成 一 个 散 列 值 ; 这 是 用 于 目录 项 散 列 表 的 . 特定 于 具体 文件 系统 的 散 列 消 数 。 参 
数 dent ry 标识 包含 路 径 分 量 的 目录 。 参数 name 指 同一 个 结构 , 该 结构 包含 要 查找 
的 路 径 名 分 量 以 及 由 散 列 函数 生成 的 散 列 值 。 

d_ compare (dir, namel, name2) 
比较 两 个 文件 名 。namel 应 该 属于 Gir 所 指 的 目录 。 缺 省 的 .VES 捕 数 是 常用 的 字 
符 串 匹配 函数 。 不 过 ,每 个 文件 系统 可 用 自己 的 方式 实现 这 一 方法 。 例 如, MS-DOS 
文件 系统 不 区 分 大 写 和 小 写字 母 。 

d_delete{dentry) 
当 对 目录 项 对 象 的 最 后 一 个 引用 被 删除 (6G_count 变 为 “0“) 时 , 调用 该 方法 。 缺 
省 的 VFS 函数 什么 也 不 做 。 

d_release (dentry) 
当 要 释放 一 个 目录 项 对 象 时 ( 放 入 slab 分 配器 ) ， 调 用 该 方法 。 缺 省 的 VFS 函数 什 
么 也 不 做 。 

d_ 1LPUt (dentry, ino) 
当 一 个 目录 项 对 象 变 为 “ 负 “ 状 态 ( 即 丢 奔 它 的 索引 布点 ) 时 ， 调 用 该 方法 。 缺 省 
的 VFS 函数 调用 iput () 释 放 索 引 节 点 对 象 。 


目录 项 高 速 缓存 

由 于 从 磁盘 读 人 一 个 目录 项 并 构造 相应 的 目录 项 对 象 需要 花费 大 量 的 时 间 , 所 以 , 在 完 
成 对 目录 项 对 象 的 操作 后 , 可 能 后 面 还 要 使 用 它 ,因此 仍 在 内 存 中 保留 它 有 重要 的 意义 。 
例如 ， 我 们 经 音 需 要 编辑 文件 ,随后 编译 它 ， 或 者 编辑 并 打印 它 ， 或 者 复制 它 并 编辑 这 
个 拷贝 ， 在 诸如 此 类 的 情况 中 ， 同 一 个 文件 需要 被 反复 访问 。 


为 了 最 大 限度 地 提高 处 理 这 些 目录 项 对 象 的 效率 ，Linux 使 用 目录 项 高 速 缓存 ， 它 由 两 
种 类 型 的 数据 结构 组 成 ， 


ET 


。 ”一 个 处 于 正在 使 用 、 未 使 用 或 负 状 态 的 目录 项 对 象 的 集合 。 


。* 一 个 散 列表 ， 从 中 能 够 快速 获取 与 给 定 的 文件 名 和 目录 名 对 应 的 目录 项 对 象 。 同 
样 ， 如 果 访 间 的 对 象 不 在 目录 项 高 速 缓存 中 ， 则 散 列 洋 数 返回 一 个 空 值 。 


目录 项 高 速 缓存 的 作用 还 相当 于 索引 节 氮 和 高速 缓存 (inode cache) 的 控制 器 。 在 内 核 内 
存 中 ,并 不 丢弃 与 未 用 目录 项 相关 的 索引 节点 ,这 是 由 于 目录 项 高 速 缓存 仍 在 使 用 它们 。 
因此 ， 这 些 索引 节点 对 象 保存 在 RAM 中 ， 并 能 够 借助 相应 的 目录 项 快速 引用 它们 。 


所 有 “未 使 用 “目录 项 对 象 都 存放 在 一 个 “最 近 最 少 使 用 (Least Recently used，LRU ) 
“的 双向 链表 中 ， 读 链表 按照 插入 的 时 间 排 序 。 换 句 话说 ， 最 后 释放 的 目录 项 对 象 放 在 
链表 的 首部 , 所 以 最 近 最 少 使 用 的 目录 项 对 象 总 是 靠近 链表 的 尾部 。 一 - 旦 目录 项 高 速 缓 
存 的 空间 开始 变 小 ,内 核 就 从 链表 的 尾部 删除 元 素 ,使 得 最 近 最 常 使 用 的 对 象 得 以 保留 。 
LRU 链表 的 首 元 素 和 尾 元 素 的 地 址 存放 在 1ist_head 类 型 的 dentry_unused 变量 的 
next 字段 和 prev 字 段 中 。 目录 项 对 象 的 da_lru 字 段 包含 指向 链表 中 相 邻 目录 项 的 指针 。 


每 个 “正在 使 用 “的 目录 项 对 象 都 被 插 人 一 个 双向 链表 中 , 该 链表 由 相应 索引 节点 对 象 的 
i_qdentry 字段 所 指向 《由 于 每 个 索引 市 点 可 能 与 若干 硬 链 接 关 联 ， 所 以 需要 一 个 链表 ) 。 
目录 项 对 象 的 a_alias 字 段 存 帮 链表 中 相 邻 元 素 的 地 址 。 这 两 个 字段 的 类 型 都 是 struct 
list head, 


当 指 向 相应 文件 的 最 后 一 个 硬 链 接 被 删除 后 , 一 个 “正在 使 用 “的 目录 项 对 象 可 能 变 成 
“ 负 “ 状 态 。 在 这 种 情况 下 ,该 目录 项 对 象 被 移 到 “未 使 用 “目录 项 对 象 组 成 的 LRU 链 
表 中 。 每 当 内 核 缩减 目录 项 高 速 缓存 时 ，“ 负 “状态 目录 项 对 象 就 朝 着 LRU 链表 的 尾部 
移动 ， 这样 一 来 , 这些 对 象 就 逐渐 被 释放 (参见 第 十 七 章 中 的 “回收 可 压缩 磁盘 高 速 缓 
存 的 阮 “ 一 虽 ， 


散 列 表 是 由 dentry_hashtable 数 组 实现 的 ,数组 中 的 每 个 元 素 是 一 个 指向 链表 的 指针 ， 
这 种 链表 就 是 把 具有 相同 散 列表 值 的 目录 项 进行 散 列 而 形成 的 ,该 数组 的 长 度 取决 于 系 
统 已 安装 RAM 的 数量 , 缺 省 值 是 每 兆 字 节 RAM 包含 256 个 元 素 。 目录 项 对 象 的 d_hash 
字段 包含 指向 具有 相同 散 列 值 的 链表 中 的 相 邻 元 素 。 散 列国 数 产 生 的 值 是 由 目录 的 目录 
项 对 象 及 文件 名 计算 出 来 的 。 


dcache_lock 自 旋 锁 保护 目录 项 高 速 缓存 数据 结构 免 受 多 处 理 器 系统 上 的 同时 访问 。 
9d_lookup{) 函数 在 散 列表 中 查找 给 定 的 父 目录 项 对 象 和 文件 名 ; 为 了 避免 发 生 竞 争 , 使 
用 顺序 锁 (seqlock) (参见 第 五 章 中 的 “顺序 锁 “ 一 节 )}。_ _9_lookup{) 函 数 与 之 类 似 ， 
不 过 它 假定 不 会 发 生 竞 争 ， 因 此 不 使 用 顺序 锁 。 
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与 进程 相关 的 文件 


在 第 一 章 的 “Unix 文 件 系 统 概 述 “ 一 市 中 我 们 曾 提 到 , 每 个 进程 都 有 它 自己 当前 的 工作 
目录 和 它 自己 的 根 目 录 。 这 仅仅 是 内 核 用 来 表示 进程 与 文件 系统 相互 作用 所 必须 维护 的 
数据 中 的 两 个 例子 。 类 型 为 fs_struc 的 整个 数据 结构 就 用 于 此 目的 (参见 表 12-6), 且 
每 个 进程 描述 符 的 fs 字段 就 指向 进程 的 fs_struc 结构 。 


表 12-6: fs_struct 结 构 中 的 字段 


类 型 字段 
atomic_t Count 
rwlock_t lock 

Int umask 
struct dentry * root 
struct dentry * Dwd 

struct dentry * ltroot 
struct vfsmount * rootmmt 
struct vfsmount * pwdmmt 
struct vfsmount * altrootmnt 


i- 


说 明 

共享 这 个 表 的 进程 个 数 

用 于 表 中 字段 的 读 / 写 自 旋 锁 

当 打 和 开 文 件 设置 文件 权限 时 所 使 用 的 位 掩 码 
根 目录 的 目录 项 

当前 工作 目录 的 目录 项 

模拟 根 目录 的 目录 项 (在 80x86 结构 上 始终 为 
NULL) 

根 目录 所 安装 的 文件 系统 对 象 

当前 工作 目录 所 安装 的 文件 系统 对 象 

模拟 根 目 录 所 安装 的 文件 系统 对 象 (在 80x86 


结构 上 始终 为 NULD) 


第 二 个 表 表 示 进 程 当 前 打开 的 文件 , 表 的 地 址 存放 于 进程 描述 社 的 files 字 有 段 。 该 表 的 
类 型 为 files_struct 结构 ， 它 的 各 个 字段 如 表 12-7 所 示 。 


表 12-7，files_struct 结 构 中 的 字段 


类 型 字段 
atomlic_t count 
rwlock t file lock 
Int max_fds 
Int max_fdset 
Int next_fqd 


struct file ** fq 


fd set * Close_on_exec 


a 


说 明 

共享 该 表 的 进程 数目 

用 于 表 中 字段 的 读 / 写 自 旋 锁 

文件 对 象 的 当前 最 大 数目 

文件 描述 符 的 当前 最 大 数目 

所 分 配 的 最 大 文件 描述 符 加 1 

指向 文件 对 象 指 针 数 组 的 指针 

指向 执行 exec () 时 需要 关闭 的 文件 描述 符 的 
指针 


< 


表 12-7: files_struct 结构 中 的 字段 ( 续 ) 


类 型 字段 说 明 

fd set * open_fds 指向 打开 文件 描述 符 的 指针 

fd set close_on_exec_init 执行 exec() 时 需要 关 团 的 文件 描述 符 的 初始 
集合 

fd_set open_fds_init 交 件 描述 符 的 初始 集合 

struct file *[] fd_array 文件 对 象 指针 的 初始 化 数组 


fd 字段 指向 文件 对 象 的 指针 数组 。 该 数组 的 长 度 存放 在 max_fas 字段 中 。 通 常 ，fd 字 
段 指向 files_struct 结构 的 fa_array 字段 ， 读 字段 包括 32 个 文件 对 象 指针 。 如 果 进 
程 打开 的 文件 数目 多 于 32, 内 核 就 分 配 一 个 新 的 .更 大 的 文件 指针 数组 , 并 将 其 地 址 存 
放 在 Edq 字段 中 ， 内 核 同 时 也 更 新 max_fds 字段 的 值 。 


对 于 在 fa 数组 中 有 元 素 的 每 个 文件 来 说 ,数组 的 索引 就 是 文件 描述 符 (file descriptor)。 
通常 ， 数 组 的 第 一 个 元 素 (索引 为 0) 是 进程 的 标准 输入 文件 ， 数 组 的 第 二 个 元 素 ( 索 
引 为 1) 是 进程 的 标准 输出 文件 , 数组 的 第 三 个 元 素 (索引 为 2) 是 进程 的 标准 错误 文件 
(参见 图 12-3)。Unix 进程 将 文件 描述 符 作 为 主 文件 标识 和 罕 。 请 注意 ， 借 助 于 dup ()、 
dup2() 和 fcnt1l1() 系 统 调用 ， 两 个 文件 描述 符 可 以 指向 同一 个 打开 的 文件 ， 也 就 是 说 ， 
数组 的 两 个 元 素 可 能 指向 同一 个 文件 对 象 。 当 用 户 使 用 shell 结 构 (如 2>&1) 将 标准 错 
误 文 件 重 定向 到 标准 输出 文件 上 时 ， 用 户 总 能 看 到 这 一 点 。 


进程 不 能 使 用 多 于 NR_OPEN (通常 为 1 048 576) 个 文件 描述 符 。 内 核 也 在 进程 描述 符 
的 signal->rlim[RLIMIT_NOFILE] 结 构 上 强制 动态 限制 文件 描述 符 的 最 大 数 ， 这 个 值 
通常 为 1024,， 但 是 如 果 进 程 具 有 超级 用 户 特权 ， 就 可 以 增 大 这 个 值 。 


open_fds 字 段 最 初 包含 open_fds_init 字 7 段 的 地 址 ，cpen_fds_init 字段 表示 当前 已 
打开 文件 的 文件 描述 符 的 位 图 。max_faset 字段 存放 位 图 中 的 位 数 。 由 于 fa_set 数据 
结构 有 1024 位 ,所 以 通常 不 需要 扩大 位 图 的 大 小 。 不 过 , 如 果 确 有 必要 的 话 , 内 核 仍 能 
动态 增加 位 图 的 大 小 ， 这 非常 类 似 于 文件 对 象 的 数组 的 情形 。 


当 内 核 开始 使 用 一 个 文件 对 象 时 ， 内 核 提 供 fget () 函数 以 供 调 用 。 这 个 函数 接收 文件 
描述 符 fa 作为 参数 ， 返 回 在 current->files->fd[fa] 中 的 地 址 ， 即 对 应 文件 对 象 的 
地 址 ， 如 果 没 有 任何 文件 与 fa 对 应 ， 则 返回 NULL。 在 第 一 种 情况 下 ，fget () 使 文件 
对 象 引 用 计数 器 f_count 的 值 增 1 。 
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stdout 1 


stderr 2 





12-3: fd 数组 


当 内 核 控 制 路 径 完 成 对 文件 对 象 的 使 用 时 ， 调 用 内 核 提 供 的 Eput () 国 数 。 该 国 数 将 文 
件 对 象 的 地 址 作为 参数 ， 并 减少 文件 对 象 引 用 计数 器 上 _couns 的 值 。 另 外 ， 如 果 这 个 
字段 变 为 0, 该 函数 就 调用 文件 操作 的 release 方 法 (如 果 已 定义 ) ， 减 少 索 引 节 点 对 
象 的 i_write count 字 段 的 值 (如 果 该 文件 是 可 写 的 ) ， 将 文件 对 象 从 超级 块 链 表 中 移 
走 , 释放 文件 对 象 给 slab 分 配器 , 最 后 减少 相关 的 文件 系统 描述 符 的 目录 项 对 象 的 引用 
计数 粥 的 值 (参见 “文件 系统 安装 ”一 节 )。 


fget_lighc() 和 fget_light() 国 数 是 fgetlty 和 tpuc() 的 快速 版 本 :内核 要 
使 用 它们 , 前 提 是 能 够 安全 地 假设 当前 进程 已 经 拥有 文件 对 象 , 即 进程 先前 已 经 增加 了 
文件 对 象 引用 计数 怖 的 值 。 例如 , 它们 由 接收 一 个 文件 描述 符 作 为 参数 的 系统 调用 服务 
例 程 使 用 ， 这 是 由 于 先前 的 open () 系统 调用 已 经 增加 了 文件 对 象 引 用 计数 器 的 值 。 


文件 系统 类 型 

Linux 内 核 支持 很 多 不 同 的 文件 系统 类 型 。 在 下 面 的 内 容 中 ,我 们 介绍 一 些 特殊 的 文件 
系统 类 型 ， 它 们 在 Linux 内 核 的 内 部 设计 中 具有 非常 重要 的 作用 。 

接 下 来 ， 我 们 将 讨论 文件 系统 往 册 一 一 也 就 是 通常 在 系统 初始 化 期 间 并 且 在 使 用 文件 
系统 类 型 之 前 必须 执行 的 基本 操作 。 一旦 文件 系统 被 注册 , 其 特定 的 函数 对 内 核 就 是 可 
用 的 ， 因 此 文件 系统 类 型 可 以 安装 在 系统 的 目录 树 上 。 


虚拟 文件 系统 四 48] 





特殊 文件 系统 


当 网 络 和 磁盘 文件 系统 能 够 使 用 户 处 理 存放 在 内 核 之 外 的 信息 时 ,特殊 文件 系统 可 以 为 
系统 程序 员 和 管理 员 提 供 一 种 容易 的 方式 来 操作 内 核 的 数据 结构 并 实现 操作 系统 的 特殊 
特征 。 表 12-8 列 出 了 Linux 中 所 用 的 最 常用 的 特殊 文件 系统 ; 对 于 其 中 的 每 个 文件 系统 ， 
表 中 给 出 了 它 的 安装 点 和 简短 描述 。 


注意 ， 有 几 个 文件 系统 没有 固定 的 安装 点 ( 表 中 的 关键 词 “ 任 意 ”)。 这 些 文件 系统 可 以 
由 用 户 自由 地 安装 和 使 用 。 此 外 ， 一 些 特 殊 文 件 系 统 根 本 没有 安装 点 ( 表 中 的 关键 词 
“无 ”)。 它们 不 是 用 于 与 用 户 交 互 , 但 是 内 核 可 以 用 它们 来 很 容易 地 重新 使 用 VFS 层 的 
某 些 人 代码， 例如， 我 们 在 第 十 九 章 会 看 到 ， 有 了 pipefs 特殊 文件 系统 ， 就 可 以 把 管道 
和 FIFO 文件 以 相同 的 方式 对 待 。 


表 12-8: 最 常用 的 特殊 文件 系统 


名 字 安装 点 说 明 

bdev 无 块 设备 【参见 第 十 三 章 ) 

binfmi_mise 任意 其 他 可 执行 格式 (参见 第 二 十 章 ) 

devpts /dev/pts 伪 终 端 支持 《开放 组 织 的 Unix98 标准 ) 
eventpollfs 无 由 有 效 事 件 轮 询 机 制 使 用 

futexfs 无 由 futex (快速 用 户 空 间 加 锁 ) 机 制 使 用 
pipefs 无 管道 【参见 第 十 九 章 | 

proe /proc 对 内 核 数据 结构 的 常规 访问 点 

rooltfs 无 为 启动 阶段 提供 一 个 空 的 根 目录 

shm 无 IPC 共享 线性 区 (参见 第 十 九 章 ) 

mqueue 任意 实现 POSIX 消息 队列 时 使 用 (参见 第 十 九 童 ) 
sockfs 无 套 接 字 

sysfs /SYS 对 系统 数据 的 常规 访问 点 (参见 第 十 三 童 ) 
tmpfs 任意 临时 文件 (如果 不 被 交换 出 去 就 保持 在 RAM 中 ) 
usbfs lproc/bus/usb USB 设备 


特殊 文件 系统 不 限于 物理 块 设备 。 然 而 , 内 核 给 每 个 安装 的 特殊 文件 系统 分 配 一 个 虚拟 
的 块 设备 , 让 其 主 设备 号 为 0 而 次 设备 号 具有 任意 值 (每 个 特殊 文件 系统 有 不 同 的 值 )。 
set_anon_super() 畏 数 用 于 初始 化 特殊 文件 系统 的 超级 块 ， 该 函数 本 质 上 获得 一 个 未 
使 用 的 次 设备 号 aev, 然后 用 主 设备 号 0 和 次 设备 号 dev 设置 新 超级 块 的 s_dev 字段 。 
而 另 一 个 kil1_anon_super1() 国 数 移 走 特殊 文件 系统 的 超级 块 。unnamed_dev_idar 变 
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量 包 含 指向 一 个 辅助 结构 (记录 当前 在 用 的 次 设备 号 ) 的 指针 。 尽 管 有 些 内 核 设 计 者 不 
喜欢 虚拟 块 设备 标识 符 , 但 是 这 些 标识 符 有 助 于 内 核 以 统一 的 方式 处 理 特殊 文件 系统 和 
普通 文件 系统 。 


我 们 在 后 面 “安装 普通 文件 系统 “一 市 会 看 到 内 核 如 何 定义 和 初始 化 一 个 特殊 文件 系统 
的 实际 例子 。 


文件 系统 类 型 注册 

通常 ， 用户 在 为 自己 的 系统 编译 内 核 时 可 以 把 Linux 配置 为 能 够 识别 所 有 需要 的 文件 系 
统 。 但 是 ,文件 系统 的 源 代 码 实际 上 要 么 包含 在 内 核 映像 中 , 要么 作为 一 个 模块 被 动态 
装 人 【参见 附录 二 )。VFS 必须 对 代码 目前 已 在 内 核 中 的 所 有 文件 系统 的 类 型 进行 跟踪 。 
这 就 是 通过 进行 文件 系统 类 型 注册 来 实现 的 。 

每 个 注册 的 文件 系统 都 用 一 个 类 型 为 file_system_type 的 对 象 来 表示 , 读 对 象 的 所 有 
字段 在 表 12-9 中 列 出 。 


表 12-9; file_system_type 对 象 的 字段 


类 型 字段 说 明 

const char * name 文件 系统 名 

int fs_flags 文件 系统 类 型 标志 

struct super block * {*){) get_sb 读 超级 块 的 方法 

veiG (*){) kill_sb 删除 超级 块 的 方法 

struct module * owner 指向 实现 文件 系统 的 模块 的 指针 (参见 附录 二 ) 
struct file system type * next 指向 文件 系统 类 型 链表 中 下 一 个 元 素 的 指针 
struct list head fs_supers 具有 相同 文件 系统 类 型 的 超级 块 对 象 链表 的 头 


所 有 文件 系统 类 型 的 对 象 都 插入 到 一 个 单 向 链表 中 。 由 变量 file_systems 指 向 链表 的 
第 一 个 元 素 , 而 结构 中 的 next 字段 指向 链表 的 下 一 个 元 素 。file_systems_lock 读 / 写 
自 旋 锁 保护 整个 链表 免 受 同时 访问 。 


fs_supers 字 段 表示 给 定 类 型 的 已 安装 文件 系统 所 对 应 的 超级 块 链表 的 头 ( 第 一 个 伪 元 
素 )。 链 表 元 素 的 向 后 和 向 前 链接 存放 在 超级 块 对 象 的 s_instances 字段 中 。 


get_sp 字 段 指向 依赖 于 文件 系统 类 型 的 函数 ,该 函数 分 配 一 个 新 的 超级 块 对 象 并 初始 化 
它 〈 如 果 需 要 ， 可 读 磁 盘 )。 而 kill_sb 字 段 指向 删除 超级 块 的 函数 


fs_flags 字段 存放 几 个 标志 ， 如 表 12-10 所 示 。 
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表 12-10: 文件 系统 类 型 的 标志 


名 字 说 明 

FS_REQUIRES_DEV 这 种 类 型 的 任何 文件 系统 必须 位 于 物理 磁盘 设备 上 

FS_BINARY_ MOUNTDATA 文件 系统 使 用 的 二 进 制 安 装 数据 

FS_REVAL_DOT 始终 在 目录 项 高 速 缓存 中 使 ”和 “.， 路 径 重 新 生效 ( 针 
对 网 络 文件 系统 ) 

FS_ODD_RENAME “ 重 命名 ”操作 就 是 “移动 ”操作 (针对 网 络 文件 系统 ) 


在 系统 初始 化 期 间 ， 调 用 register_filesystem() 国 数 来 注册 编译 时 指定 的 每 个 文件 
系统 ， 该 国 数 把 相应 的 file_system_cype 对 象 插 人 到 文件 系统 类 型 的 链表 中 。 


当 实 现 了 文件 系统 的 模块 被 装 人 时 , 也 要 调用 register_filesystem() 国 数 .。 在 这 种 情况 
下 ， 当 该 模块 被 卸载 时 , 对 应 的 文件 系统 也 可 以 被 注销 (调用 unregister_filesystem() 
函数 )。 


get_fs_type() 函 数 (接收 文件 系统 名 作为 它 的 参数 ) 扫描 已 注册 的 文件 系统 链表 以 查 
找 文 件 系 统 类 型 的 name 字 段 ,， 并 返回 指 同 相应 的 file_system_type 对 象 (如 果 存 在 ) 
的 指针 。 


文件 系统 处 理 


就 像 每 个 传统 的 Unix 系统 一 样 ,Linux 也 使 用 系统 的 根 文件 系统 (system's root filesystem ) : 
它 由 内 核 在 引导 阶段 直接 安装 ， 并 拥有 系统 初始 化 脚本 以 及 最 基本 的 系统 程序 。 


其 他 文件 系统 要 么 由 初始 化 脚本 安装 ,要 么 由 用 户 直 接 安装 在 已 安装 文件 系统 的 目录 上 。 
作为 一 个 目录 树 ， 每 个 文件 系统 都 拥有 自己 的 根 目 录 (roor directory) 。 安 装 文件 系统 
的 这 个 目录 称 之 为 安装 点 (mount point)。 已 安装 文件 系统 属于 安装 点 目录 的 一 个 子 文 
件 系 统 。 例 如 ，/proc 虚拟 文件 系统 是 系统 的 根 文件 系统 的 孩子 〈 且 系统 的 根 文件 系统 
是 /proc 的 父亲 )。 已 安装 文件 系统 的 根 目录 隐 沽 了 父 文件 系统 的 安装 点 目录 原来 的 内 
容 ， 而且 父 文件 系统 的 整个 子 树 位 于 安装 点 之 下 ( 注 5)。 





注 5: 文件 系 鲍 的 根 目录 有 可 能 不 同 于 进程 的 根 目 录 : 正如 我 们 在 前 面 与 文件 相关 的 进程 一 
节 所 见 ， 进 程 的 根 目 录 是 与 “1/“ 踏 径 对 应 的 目录 。 款 省 情况 下 ,进程 的 根 目 录 与 系统 的 
根 文件 系统 的 根 目 录 一 致 (更 准确 地 说 是 与 进程 的 命名 空间 中 的 根 文件 系统 的 根 目 录 一 
致 ,这 一 点 将 在 下 一 节 描 述 ), 但 是 可 以 通过 调用 chroot 1() 系 纤 调 用 改变 进程 的 根 目 录 。 
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命名 空间 

在 传统 的 Unix 系统 中 ,只 有 一 个 已 安装 文件 系统 树 : 从 系统 的 根 文件 系统 开始 , 每 个 进 
程 通过 指定 合适 的 路 径 名 可 以 访问 已 安装 文件 系统 中 的 任何 文件 。 从 这 个 方面 著 虑 ， 
Linux 2.6 更 加 的 精确 ;每 个 进程 可 拥有 自己 的 已 安装 文件 系统 树 一 一 叫做 进程 的 命名 空 


间 (namespace), 


通常 大 多 数 进程 共享 同一 个 命名 空间 ,即位 于 系统 的 根 文件 系统 且 被 init 进程 使 用 的 已 
安装 文件 系统 树 。 不 过 ， 如 果 clone1() 系 统 调用 以 CLONE_NEWNS 标 志 创 建 一 个 新 进程 ， 
那么 进程 将 获取 一 个 新 的 命名 空间 (参见 第 三 章 的 “clone()、fork() 及 vfork() 系 统 调 用 
一 布 )。 这 个 新 的 命名 空间 随后 由 子 进程 继承 (如 果 父 进程 没有 以 CLONE_NEWNS 标 志 
创建 这 些 子 进程 )。 


当 进 程 安 装 或 卸载 一 个 文件 系统 时 , 仅 修 改 它 的 命名 空间 。 因 此 ， 所 做 的 修改 对 共享 同 
一 命名 空间 的 所 有 进程 都 是 可 见 的 ， 并 且 也 只 对 它们 可 见 。 进 程 其 至 可 通过 使 用 Linux 
特有 的 Pivot_root () 系统 调用 来 改变 它 的 命名 空间 的 根 文件 系统 。 


进程 的 命名 空间 由 进程 描述 罕 的 namespace 字 有 段 指 向 的 namespace 结 构 描述 , 读 结 构 的 
字段 如 表 12-11 所 示 。 


表 12-11: namespace 结 构 中 的 字段 


类 型 字段 说 明 

atomic_t count 引用 计数 器 (共享 命名 空间 的 进程 数 ) 
struct vfsmount * root 命名 空间 根 目录 的 已 安装 文件 系统 描述 符 
struct list_head TS 所 有 已 安装 文件 系统 描述 符 链 表 的 头 


struct rw_semaphore sem 保护 这 个 结构 的 读 / 写 信号 量 


1ist 字 段 是 双向 循环 链表 的 头 , 该 表 聚 集 了 属于 命名 空间 的 所 有 已 安装 文件 系统 。roeft 
字段 表示 已 安装 文件 系统 , 它 是 这 个 命名 空间 的 已 安装 文件 系统 树 的 根 。 正 如 我 们 在 下 
一 市 将 看 到 的 ， 已 安装 文件 系统 由 vfsmount 结构 描述 。 


文件 系统 安装 


在 大 多 数 传 统 的 类 Unix 内 核 中 ， 每 个 文件 系统 只 能 安装 -- 次 。 假 定 存 放 在 /dev/fd0 软 
磁盘 上 的 Ext2 文件 系统 通过 如 下 命令 安装 在 /fip: 


mount -t ext2 /dev/ftdd /flpn 


在 用 umount 命令 印 载 该 文件 系统 前 ， 所 有 其 他 作用 于 /devwfd0 的 安装 命令 都 会 失败 。 
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然而 ，Linux 有 所 不 同 : 同一 个 文件 系统 被 安装 多 次 是 可 能 的 。 当 然 ， 如 果 一 个 文件 系 
统 被 安装 了 7 次， 那么 它 的 根 目录 就 可 通过 个 安装 点 来 访问 。 尽 管 同一 文件 系统 可 以 
通过 不 同 的 安装 点 来 访问 , 但 是 文件 系统 的 的 确 确 是 唯一 的 。 因 此 , 不管 一 个 文件 系统 
被 安装 了 多 少 次 ， 都 仅 有 一 个 超级 块 对 象 。 


安装 的 文件 系统 形成 一 个 层次 :一 个 文件 系统 的 安装 点 可 能 成 为 第 二 个 文件 系统 的 目录 ， 
而 第 二 个 文件 系统 又 安装 在 第 三 个 文件 系统 之 上 ， 等 等 ( 注 6)。 


把 多 个 安装 堆 秋 在 一 个 单独 的 安装 点 上 也 是 可 能 的 ,尽管 已 经 使 用 先前 安装 下 的 文件 和 
目录 的 进程 可 以 继续 使 用 , 但 在 同一 安装 点 上 的 新 安装 隐藏 前 一 个 安装 的 文件 系统 。 当 
最 顶层 的 安装 被 删除 时 ， 下 一 层 的 安装 再 一 次 变 为 可 见 的 。 


尔 可 以 想像 ， 跟 踪 已 安装 的 文件 系统 很 快 会 变 为 一 场 恶 梦 。 对 于 每 个 安装 操作 ， 内 核 必 
须 在 内 存 中 保存 安装 点 和 安装 标志 ,以 及 要 安装 文件 系统 与 其 他 已 安装 文件 系统 之 间 的 
关系 。 这样 的 信息 保存 在 已 安装 文件 系统 描述 符 中 ; 每 个 描述 符 是 一 个 具有 vfsmount 
类 型 的 数据 结构 ， 其 字段 如 表 12-12 所 示 。 


表 12-12: vfsmount 数据 结构 中 的 字段 


类 型 字段 说 明 

struct list_head mt_hash 用 于 散 列 表 链 表 的 指针 

struct vfsmount * nmt_parent 指向 父 文件 系统 ， 这 个 文件 系统 安装 在 其 上 

struct dentry * mt_mountpoint 指向 这 个 文件 系统 安装 点 目录 的 dentry 

struct dentry * mt_root 指向 这 个 文件 系统 根 目 录 的 dentry 

struct super _ block * mt_sb 指向 这 个 文件 系统 的 超级 块 对 象 

struct list_head mt_mounts 包含 所 有 文件 系统 描述 符 链 表 的 头 〈 相 对 于 这 
个 文件 系统 ) 

struct list_head mt_child 用 于 已 安装 文件 系统 链表 mnt_mounts 的 指针 

atomic_t mt_count 引用 计数 器 (增加 读 值 以 禁止 文件 系统 被 卸载 ) 

Int | , mt_flags 标志 


注 6: 。 令 人 非常 惊讶 的 是 ， 一 个 文件 系统 的 安装 点 可 能 就 是 这 同一 文件 系统 中 的 一 个 目录 ， 候 
定 这 个 文件 系统 以 前 已 经 安装 。 例 如 : 


mount-t ext2/dev/faD0/flp;touch/flp/foo 
mkdir/flp/mt;mount-t ext2/dev/fd0/flp/mt 


现在 软盘 文件 系统 上 的 空 fon 文件 就 可 以 通过 Wip/foo 和 fip/mni/foo 来 访问 。 
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表 12-12，vfsmount 数据 结构 中 的 字段 ( 续 ) 
类 型 字段 说 明 
Int mnt_expiry_mark ”如果 文件 系统 标记 为 到 期 ， 那 么 就 设置 该 标志 


为 true (如 果 设 置 了 该 标志 ,并 且 没 有 任何 人 
使 用 它 ， 那 么 就 可 以 自动 印 载 这 个 文件 系统 ) 


char * mt _ devname 设备 文 件 名 
struct list heagd mnt_ list 已 安装 文件 系统 描述 符 的 namespace 链 表 的 指 
针 


struct 1ist head mt_fslink 具体 文件 系统 到 期 链表 的 指针 
struct namespace * mt_namespace 指向 安装 了 文件 系统 的 进程 命名 空间 的 指针 


vfsmount 数据 结构 保存 在 几 个 双向 循环 链表 中 : 


。 ”由 父 文件 系统 vfsmount 挨 述 符 的 地 址 和 安装 点 目录 的 目录 项 对 象 的 地 址 索引 的 散 
列表 。 散 列表 存放 在 mount_hashtable 数 组 中 ， 其 大 小 取决 于 系统 中 RAM 的 容 
量 . 表 中 每 一 项 是 具有 同一 散 列 值 的 所 有 描述 符 形成 的 双向 循环 链表 的 头 。 描述 符 
的 mnt_hash 字 段 包 含 指 向 链表 中 相 邻 元 素 的 指针 。 

。 “对 于 每 一 个 命名 空间 ,所 有 属于 此 命名 空间 的 已 安装 的 文件 系统 描述 符 形成 了 一 个 
双向 循环 链表 。namespace 结 构 的 1ist 字段 存放 链表 的 头 ，vfsmoeunt 描述 符 的 
mt_list 字段 包含 链表 中 指向 相 邻 元 素 的 指针 。 

*。 “对 于 每 一 个 已 安装 的 文件 系统 ， 所 有 已 安装 的 子 文件 系统 形成 了 一 个 双向 循环 链 
表 。 每 个 链表 的 头 存放 在 已 安装 的 文件 系统 描述 符 的 mnt_mounts 字 段 ， 此 外 , 描 
述 符 的 rnt_child 字 段 存放 指向 链表 中 相 邻 元 素 的 指针 。 


vfsmount_lock 自 旋 锁 保 护 已 安装 文件 系统 对 象 的 链表 免 受 同时 访问 。 


描述 符 的 mmt_flags 字 段 存放 几 个 标志 的 值 , 用 以 指定 如 何 处 理 已 安装 文件 系统 中 的 某 
些 种 类 的 文件 。 这 些 标志 可 通过 mount 命令 的 选项 进行 设置 ， 其 标志 如 表 12-13 所 示 。 


表 12-13: 已 安装 文件 系统 中 的 标志 


名 字 说 明 

MNT_NOSUID 在 已 安装 文件 系统 中 禁止 setuiqd 和 setgid 标志 
MNT_NODEV 在 已 安装 文件 系统 中 禁止 访问 设备 文件 
MNT_NOEXEC ”在 已 安装 文件 系统 中 不 允许 程序 执行 


下 列 函 数 处 理 已 安装 文件 系统 描述 符 ， 
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alloc_vtsmt (name) 

分 配 和 初始 化 一 个 已 安装 文件 系统 描述 符 。 
free_vfsmmt (mnt) 

释放 由 mnt 指 阿 的 已 安装 文件 系统 的 述 符 。 
looKuUp_mnt (mt, dentry) 


在 散 列 表 中 查找 一 个 描述 符 并 返回 它 的 地 址 。 


安装 普通 文件 系统 


我 们 现在 描述 安装 一 个 文件 系统 时 内 核 所 要 执行 的 操作 。 我 们 首先 考虑 一 个 文件 系统 将 
被 安装 在 一 个 已 安装 文件 系统 之 上 的 情形 (在 这 里 我 们 把 这 种 新 文件 系统 看 作 “ 普 通 
:6 


mount (}) 系统 调用 被 用 来 安装 一 个 普通 文件 系统 ; 它 的 服务 例 程 sys_mount () 作 用 于 以 

下 参数 : 

。 文件 系统 所 在 的 设备 文件 的 路 径 名 , 或 者 如 果 不 需要 的 话 就 为 NULL {例如 ， 当 要 
安装 的 文件 系统 是 基于 网 络 时 ) 

。 文件 系统 被 安装 其 上 的 某 个 目录 的 目录 路 径 名 (安装 点 ) 

。 文件 系统 的 类 型 ， 必 须 是 已 注册 文件 系统 的 名 字 

， 安装 标志 (所 允许 的 值 如 表 12-14 所 示 ) 

。 ”指向 一 个 与 文件 系统 相关 的 数据 结构 的 指针 (也 许 为 NULL) 


表 12-14:， mount() 系 统 调用 使 用 的 安装 标志 


宏 说 明 

MS_RDONLY 文件 只 能 被 读 

MS_NOSUID 球 | setuid 和 setgid 标 志 
MS_NODEV 禁止 访问 设备 文件 

MS_NOEXEC 不 元 许 程序 执行 

MS_SYNCHRONOUS 文件 和 目录 上 的 写 操作 是 即时 的 
MS_REMOUNT 重新 安装 改变 了 安装 标志 的 文件 系统 
MS_MANDLOCK 允许 强制 加 锁 

MS_DIRSYNC 目录 上 的 写 操 作 是 即时 的 


MS_ NOATIME 不 更 新 文件 访 占 时间 
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表 12-14: mount() 系 统 调用 使 用 的 安装 标志 ( 续 ) 


宏 说 明 

MS_NODIRATIME 不 更 新 目录 访问 时 间 

MS_BIND 创建 一 个 “ 绑 定 安装 ”“， 这 就 使 得 一 个 文件 或 目录 在 系统 目录 树 
的 另外 一 个 点 上 可 以 看 得 见 (mount 命令 的 __Pbinda 选 项 ) 

MS_MOVE 自动 把 一 个 已 安装 文件 系统 移动 到 另 一 个 安装 点 【mount 命令 的 
__move 药 项 ) 

MS_REC 为 目录 子 树 递归 地 创建 “ 绑 定安 装 “ 

MS_VERBOSE 在 安装 出 错时 产生 内 核 消息 


sys_mount{) 函数 把 参数 的 值 拷 风 到 临时 内 核 缓 冲 区 ， 获 取 大 内 棱 锁 ， 并 调用 
do_mount () 函数 。 一旦 do_mount () 返 回 ， 则 这 个 服务 例 程 释放 大 内 梳 销 并 释放 临时 内 
核 缓 促 区 。 


do_mount () 国 数 通 过 执行 下 列 操作 处 理 真 正 的 安装 操作 : 


1. ”如 果 安 装 标志 MS_NOSUID、MS_NODEV 或 MS_NOEXEC 中 任 一 个 被 设置 , 则 清除 
它们 , 并 在 已 安装 文件 系统 对 象 中 设置 相应 的 标志 (MNT_NOSUID, MNT_NODEV. 
MNT_NOEXEC ) 。 


2. ”调用 path_lookup1() 查 找 安装 点 的 路 径 名 ; 该 函数 把 路 径 名 查找 的 结果 存放 在 
nameidata 类 型 的 局 部 变量 nd 中 (参见 后 面 的 “路 径 名 查找 ”一 节 )。 
3. 检查 安装 标志 以 快 定 必须 做 什么 。 尤 其 是 : 

a， 如 朱 MS_REMOUNT 标志 被 指定 ， 其 目的 通常 是 改变 超级 块 对 象 s_flags 字段 
的 安装 标志 ， 以 及 已 安装 文件 系统 对 象 mnt_flags 字 段 的 安装 文件 系统 标志 。 
do_remount () 国 数 执行 这 些 改变 。 

b. 否则 , 检查 MS_BIND 标 志 。 如 果 它 被 指定 , 则 用 户 要 求 在 在 系统 目录 树 的 另 一 
小 实 装点 上 的 文件 或 目录 能 够 可 见 。 

c. 否则 , 检查 MS_MOVE 标 志 。 如 果 它 被 指定 , 则 用 户 要求 改 变 已 安装 文件 系统 的 
安装 点 。do_move_mount () 函数 原子 地 完成 这 一 任务 。 

d. 否则 , 调用 do_new_mount ()。 这 是 最 普通 的 情况 。 当 用 户 要 求 安 装 一 个 特殊 
文件 系统 或 存放 在 磁盘 分 区 中 的 普通 文件 系统 时 ， 触 发 该 函数 。 它 调用 
do_kern_mount () 函 数 , 给 它 传递 的 参数 为 文件 系统 类 型 、 安 装 标志 以 及 块 设 
备 名 .dc_kern_mount () 处 理 实际 的 安装 操作 并 返回 一 个 新 安装 文件 系统 描述 
符 的 地 址 (如 下 描述 )。 然 后 ，do_new_mount (} 调 用 do_adqd_mount () ， 后 者 
本 质 上 执行 下 列 操作 
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(1) 获得 当前 进程 的 写 信号 量 namespace->sem， 因 为 国 数 要 更 改 namespace 结 
构 。 

(2) do_kern_mount () 孙 数 可 能 让 当前 进程 睡 卢 ， 同时 ， 另 一 个 进程 可 能 在 完全 
相同 的 安装 点 上 安装 文件 系统 或 者 甚至 更 改 根 文件 系统 (current-> 
namespace->root)。 验 证 在 该 安装 点 上 最 近 安 装 的 文件 系统 是 否 仍 指向 当前 
的 namespace: 如 果 不 是 ， 则 释放 读 / 写 信号 量 并 返回 一 个 错误 码 。 

(3) 如 果 要 安装 的 文件 系统 已 经 被 安装 在 由 系统 调用 的 参数 所 指定 的 安装 点 上 ， 
或 该 安装 点 是 一 个 符号 链接 ， 则 释放 读 / 写 信号 量 并 返回 一 个 错误 码 。 

(4) 初始 化 由 do_kern_mount (分配 的 新 安装 文件 系统 对 象 的 mnt_flags 字 段 的 
标志 。 

(5) 调用 graft_tree() 把 新 安装 的 文件 系统 对 象 插入 到 namespace 链表 、 散 
列表 及 父 文件 系统 的 子 链表 中 ，。 

(6) 释放 namespace->sem 读 / 写 信 号 量 并 返回 。 

4. 调用 pakch_releasef) 终 止 安装 点 的 路 径 名 查找 (参见 后 面 的 “路 径 名 查找 "一 节 ) 

并 返回 0。 


do_kern_mount() 函数 
安装 操作 的 核心 是 do_kern_mount () 国 数 , 它 检查 文件 系统 类 型 标志 以 决定 安装 操作 是 
如 何 完成 的 。 该 国 数 接收 下 列 参数 : 
fstype 

要 安装 的 文件 系统 的 类 型 名 。 
flags 

安装 标志 (参见 表 12-14)。 
name 

存放 文件 系统 的 块 设备 的 路 径 名 (或 特殊 文件 系统 的 类 型 名 )。 
data 

指向 传递 给 文件 系统 的 read_super 方法 的 附加 数据 的 指针 。 
本 质 上 ， 该 国 数 通 过 执行 下 列 操作 实现 实际 的 安装 操作 ; 


1. “调用 get_fs_cypef) 在 文件 系统 类 型 链表 中 搜索 并 确定 存放 在 fstype 参 数 中 的 名 
字 的 位 置 ， 返 回 局 部 变量 type 中 对 应 file_svstem_type 描 述 符 的 地 址 。 
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和 调用 alloc_vfsmnt () 分 配 一 个 新 的 已 安装 文件 系统 的 描述 符 , 并 将 它 的 地 址 存放 
在 mnt 局 部 变量 中 。 

3. ”调用 依赖 于 文件 系统 的 type->get_sb() 函 数 分 配 , 并 初始 化 一 个 新 的 超级 块 ( 参 
见 下 面 )。 

4. 用 新 超级 块 对 象 的 地 址 初始 化 mnt->mnt_sb 字段 。 

5， 和 将 mnt->mnt_root 字段 初始 化 为 与 文件 系统 根 目 录 对 应 的 目录 项 对 象 的 地 址 ， 并 
增加 该 目录 项 对 象 的 引用 计数 器 值 。 

6. 用 mnt 中 的 值 初始 化 mnt->mnt_parent 字 段 (对 于 普通 文件 系统 , 当 graft_tree() 
把 已 安装 文件 系统 的 描述 符 揪 人 到 合适 的 链表 中 时 ， 要 把 mrnt_parent 字段 置 为 合 
适 的 值 ， 参 见 do_mount () 的 第 3d5 步 ) 。 

7. “用 current->namespace 中 的 值 初始 化 mnmc->mnt_namespace 字段 。 

8. 释放 超级 块 对 象 的 读 / 写 信 号 量 s_umount (在 第 3 步 中 分 配对 象 时 获得 )。 

9， 返回 已 安装 文件 系统 对 象 的 地 址 mmt。 


分 配 超级 块 对 象 


文件 系统 对 象 的 get_sb 方 法 通常 是 由 单行 函数 实现 的 。 例 如 ,在 Ext2 文件 系统 中 该 方 
法 的 实现 如 下 ; 
struct super_ block * ext2 get sblstruct file system type *type, 
int flags, const char *dev_name, void *data) 
{ 


return get_sb bdevlitype, flags, dev_name, data, ext2_fill super}):; 


} 


get_sb_bqev()YFS 国 数 分 配 并 初始 化 一 个 新 的 适合 于 磁盘 文件 系统 的 超级 块 4 它 接收 
ext2_fill_super() 函 数 的 地 址 ,该 函数 从 Ext2 磁盘 分 区 读 取 磁盘 超级 块 。 


为 了 分 配 适合 于 特殊 文件 系统 的 超级 块 , YFS 也 提供 get_sb_pseudo() 函 数 (对 于 没有 
安装 点 的 特殊 文件 系统 , 例如 pipefs)、get_sb_single() 函 数 (对 于 具有 唯一 安装 点 
的 特殊 文件 系统 ， 例 如 sy 听 ) 以 及 get_sb_nodev1() 国 数 (对 于 可 以 安装 多 次 的 特殊 文 
件 系统 ， 例 如 timpfs， 参见 下 面 )。 


get_sb_bdev () 执 行 的 最 重要 的 操作 如 下 : 


1. 调用 open_baev_excl() 打 开设 备 文 件 名 为 dev_name 的 块 设 备 (参见 第 十 三 章 的 
“字符 设备 驱动 程序 “一 节 )。 
2. ”调用 sget () 搜 索 文件 系统 的 超级 块 对 象 链表 (type->fs_supers, 合 见 前 面 的 “ 文 
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件 系统 类 型 注册 ”一 节 )。 如果 找 到 一 个 与 块 设备 相关 的 超级 块 , 则 返回 它 的 地 址 。 
否则 , 分配 并 初始 化 一 个 新 的 超级 块 对 象 , 把 它 插入 到 文件 系统 链表 和 超级 块 全 局 
链表 中 ， 并 返回 其 地 址 。 


3. ”如果 不 是 新 的 超级 块 ( 它 不 是 上 一 步 分 配 的 ， 因 为 文件 系统 已 经 被 安装 ) ， 则 跳 到 
第 6 步 。 

4. 把 参数 flags 中 的 值 拷贝 到 超级 块 的 s_flags 字 段 ,并 将 s_id.s_old_blocksize 
以 及 s_blocksize 字 段 设置 为 块 设备 的 合适 值 。 

5. ”调用 依赖 文件 系统 的 函数 (该 函数 作为 传递 给 get_sb_bdev() 的 最 后 一 个 参数 ) 访 
问 磁 盘 上 的 超级 块 信 息 ， 并 填充 新 超级 块 对 象 的 其 他 字段 。 


6. 返回 新 超级 块 对 象 的 地 址 。 


安装 根 文件 系统 


安装 根 文件 系统 是 系统 初始 化 的 关键 部 分 。 这 是 一 个 相当 复杂 的 过 程 , 因为 Linux 内 核 
允许 根 文件 系统 存放 在 很 多 不 同 的 地 方 , 比如 硬盘 分 区 、 软盘 、 通过 NFS 共享 的 远程 文 
件 系 统 ， 其 至 保存 在 ramdisk 中 (RAM 中 的 虚拟 块 设备 ) 。 


为 了 使 叙述 变 得 简单 ， 让 我 们 假定 根 文件 系统 存放 在 硬盘 分 区 (毕竟 这 是 最 常见 的 情 
况 )。 当 系统 启动 时 , 内 核 就 要 在 变量 ROOT_DEV 中 寻找 包含 根 文件 系统 的 磁盘 主 设备 号 
(参见 附录 一 )。 当 编译 内 核 时 ,或 者 向 最 初 的 启动 装 入 程序 传递 一 个 合适 的 “root” 选 
项 上 时, 根 文 件 系统 可 以 被 指定 为 /dev 目 录 下 的 一 个 设备 文件 。 类 似 地 , 根 文件 系统 的 安 
装 标志 存放 在 root_mount flags 变 量 中 。 用户 可 以 指定 这 些 标志 , 或 者 通过 对 已 编译 的 
内 核 映 像 使 用 rdev 外 部 程序 , 或 者 向 最 初 的 启动 装 人 程序 传递 一 个 合适 的 rootnags 选 项 
来 达到 (参见 附录 一 )。 


安装 根 文件 系统 分 两 个 阶段 ， 如 下 所 示 : 


1. 内 核 安装 特殊 rootfs 文件 系统 ， 该 文件 系统 仅 提 供 一 个 作为 初始 安装 点 的 空 目 录 。 
2. 内核 在 空 目 录 上 安装 实际 根 文 件 系统 。 


为 什么 内 核 不 怕 麻 烦 ， 要 在 安装 实际 根 文件 系统 之 前 安装 roo 信 文件 系统 呢 ? 我 们 知道 ， 
rootfs 文件 系统 允许 内 核 容 易 地 改变 实际 根 文件 系统 。 事 实 上 , 在 某 些 情况 下 ， 内核 逐 个 
地 安装 和 卸载 几 个 根 文件 系统 。 例 如 , 一 个 发 布 版 的 初始 局 动 光盘 可 能 把 具有 一 组 最 小 驱 
动 程序 的 内 核 装 入 RAM 中 ,内核 把 存放 在 ramdisk 中 的 一 个 最 小 的 文件 系统 作为 根 安装 。 
接 下 来 ， 在 这 个 初始 根 文件 系统 中 的 程序 探测 系统 的 硬件 (例如 ， 它 们 判断 硬盘 是 否 是 
EIDE、SCSI 等 等 ) ， 装 人 所 有 必需 的 内 核 模块 ， 并 从 物理 块 设 备 重新 安装 根 文件 系统 。 
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阶段 1: 安装 rootfs 文件 系统 


第 一 阶段 是 由 init_rootfts() 和 init_mount_tree() 国 数 完成 的 ， 它 们 在 系统 初始 化 
过 程 中 执行 。 


init_rootfs() 国 数 往 册 特 殊 文件 系统 类 型 roorF : 


struct file system_type rootfs fs type = 1 
.Name = “rootfs “; 
.get_sb = rootfs get_shbh; 
.kill_ sb = kill litter_ super:; 

}; 


register filesystem{&rootfs fs_ type); 


init_mount_creef) 国 数 执行 如 下 操作 : 


1. 调用 ao_kern_mount () 国 数 ， 把 字符 串 “rootfs” 作 为 文件 系统 类 型 参数 传递 给 
它 , 并 把 该 国 数 返 回 的 新 安装 文件 系统 描述 符 的 地 址 保存 在 mnt 局 部 变量 中 ,正如 
前 一 节 所 介绍 的 ，do_kern_mount 1) 最终 调用 rootfs 文件 系统 的 get_sb 方 法 ,也 
即 xcootfs_get_sb1l) 国 数 ， 


Struct superblock *rootfs get_sblstruct file_ system type *fs_type, 
int flags; const char *dev_name, void *data) 
{ 
return get_sb nodevlfs type, flags|MSs_ NOUSER, data, 
ramfs_ fill super}): 


} 


get_sb_nodev1() 国 数 执行 如 下 步 紧 : 


a. 调用 sget () 国 数 分 配 新 的 超级 块 , 传递 set_anon_super() 国 数 的 地 址 作为 参 
数 【 参 见 前 面 的 “特殊 文件 系统 “一 节 )。 接 下 来 , 用 合适 的 方式 设置 超级 块 的 
s_dev 字 段 : 主 设备 号 为 0， 次 设备 号 不 同 于 其 他 已 安装 的 特殊 文件 系统 的 次 
设备 号 。 

b. 将 flags 参 数 的 值 拷贝 到 超级 块 的 s_flags 字 段 中 。 


c. 调用 ramfs_fil1_super1l) 国 数 分 配 索 引 节 点 对 象 和 对 应 的 目录 项 对 象 , 并 填 
充 超级 块 字段 值 。 由 于 rcoot fs 是 一 种 特殊 文件 系统 ， 没 有 磁盘 超级 块 ， 因 此 
只 需 执 行 两 个 超级 块 操 作 。 
d. 返回 新 超级 块 的 地 址 。 
2. ”为 进程 0 的 命名 空间 分 配 一 个 namespace 对 象 , 并 将 它 插入 到 由 do_kern_mount () 
图 数 返 回 的 已 安装 文件 系统 描述 符 中 


namespace = kmalloclsizeof (*namespace}, 人 EPE_ KERNEL) ; 
list_add(sgmmt->smnt_list, &namespace->]list}: 
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namespace->root = TEL 
mnt-x>mnt namespace = init_task.namespace = Namespace,; 


3. ”将 系统 中 其 他 每 个 进程 的 namespace 字 段 设 置 为 namespace 对 象 的 地 址 ， 同时 初 
始 化 引用 计数 器 namespace->count (人 缺 省 情况 下 ， 所 有 的 进程 共享 同一 个 初始 


namespace ) 。 


4. 将 进程 0 的 根 目录 和 当前 工作 目录 设置 为 根 文件 系统 。 


阶段 2: 安装 实际 根 文件 系统 

根 文件 系统 安装 操作 的 第 二 阶段 是 由 内 核 在 系统 初始 化 即将 结束 时 进行 的 ,根据 内 核 被 
编译 时 所 选择 的 选项 , 和 内 核 装 入 程序 所 传递 的 启动 选项 , 可 以 有 几 种 方法 安装 实际 根 
文件 系统 。 为 了 简单 起 见 ， 我 们 只 考虑 磁盘 文件 系统 的 情况 ， 它 的 设备 文件 名 已 通过 
“roof ”启动 参数 传递 给 内 核 。 同 时 我 们 假定 除了 rootfs 文件 系统 外 , 没有 使 用 其 他 初始 
特殊 文件 系统 。 


prepare_namespace1l) 国 数 执行 如 下 操作 : 

1， 把 root_device_name 变量 置 为 从 启动 参数 “root” 中 获取 的 设备 文件 名 。 同 样 ， 
把 ROOT_DEV 变量 置 为 同一 设备 文件 的 主 设备 号 和 次 设备 号 。 

2. ”调用 mount_root () 函数 ， 依 次 执行 如 下 操作 : 


a， 调用 sys_mknod{) (mknod|) 系 统 调用 的 服务 例 程 ) 在 rootfs 初始 根 文件 系统 
中 创建 设备 文件 /dev/root， 其 主 、 深 设备 号 与 存放 在 ROOT_DEV 中 的 一 样 。 

b， 分 配 一 个 缓冲 区 并 用 文件 系统 类 型 名 链表 填充 它 。 访 链表 要 么 通过 启动 参数 
“rootfstype" 传送 给 内 核 ,要 人 么 通过 扫描 文件 系统 类 型 单 向 链表 中 的 元 素 建 立 。 

c. 扫描 上 一 步 建 立 的 文件 系统 类 型 名 链表 。 对 每 个 名 宇 , 调用 sys_mount () 试 图 
在 根 设 备 上 安装 给 定 的 文件 系统 类 型 ,由 于 每 个 特定 于 文件 系统 的 方法 使 用 不 
同 的 磨 数 ， 因 此 ， 对 get_sb() 的 调用 大 都 会 失败 ， 但 有 一 个 例外 ， 那 就 是 用 
根 设备 上 实际 使 用 过 的 文件 系统 的 函数 来 填充 超级 块 的 那个 调用 ,该 文件 系统 
被 安装 在 rootfs 文件 系统 的 /roo! 目录 上 ， 

d， 调 用 sys_chdir (“/root”) 改变 进程 的 当前 目录 。 

3. 移动 rootfs 文件 系统 根 目 录 上 的 已 安装 文件 系统 的 安装 点 。 


SyYS_mMount(".", "/", NULL, MSs_ MOVE, NULD)}; 
Sys_ chroot("."}):; 


注意 ，rootfs 特殊 文件 系统 没有 被 和 卸载 : 它 只 是 隐藏 在 基于 磁盘 的 根 文件 系统 下 了 。 


I 

卸载 文件 系统 

umount () 系统 调用 用 来 人 印 载 一 个 文件 系统 。 相应 的 sys_umount () 服 务 例 程 作 用 于 两 个 

参数 : 文件 名 (多 是 安装 点 目录 或 是 块 设备 文件 名 ) 和 一 组 标志 。 该 函数 执行 下 列 操作 ， 

1. 调用 path_lookup() 查 找 安装 点 路 径 名 ; 该 函数 把 返回 的 查找 操作 结果 存放 在 
nameidata 类 型 的 局 部 变量 nd 中 (参见 下 一 节 )。 


2. 如果 查找 的 最 终 目 录 不 是 文件 系统 的 安装 点 , 则 设置 retval 返 回 码 为 -EINVAL 并 
跳 到 第 6 步 。 这 种 检查 是 通过 验证 nda->mnt->mnt_root ( 它 包 含 由 nd.dentry 指 
向 的 目录 项 对 象 地 址 ) 进行 的 。 


3. 如 果 要 和 食 载 的 文件 系统 还 设 有 安装 在 命名 空间 中 ， 则 设置 retval 返 回 码 为 
-EINVAL 并 跳 到 第 6 步 (回想 一 下 ， 某 些 特殊 文件 系统 没有 安装 点 ) 。 这 种 检查 是 
通过 在 nd->mnt 上 调用 check_mnt () 函数 进行 的 。 


4. 如 和 采用 户 不 具有 印 载 文件 系统 的 特权 , 则 设置 retval 有 返回 码 为 -EPERM 并 跳 到 第 6 
步 。 


5， 调用 do_umount () ， 传 递 给 它 的 参数 为 na.mnt (已 安装 文件 系统 对 象 ) 和 flags 

(一 组 标志 )。 该 函数 执行 下 列 操作 ; 

a. 从 已 安装 文件 系统 对 象 的 mnt_sb 字段 检索 超级 块 对 象 sb 的 地 址 。 

b， 如 果 用 户 要 求 强 制 印 载 操 作 ， 则 调用 umount_begin 超 级 块 操 作 中 断 任 何 正在 
进行 的 安装 操作 。 

c， 如 果 要 人 御 载 的 文件 系统 是 根 文件 系统 ， 且 用 户 并 不 要 求 真 正 地 把 它 芭 载 下 来 ， 
则 调用 ao_remount_sb() 重 新 安装 根 文 件 系统 为 只 读 并 终止 。 

d， 为 进行 写 操作 而 获取 当前 进程 的 namespace->sem 读 / 写 信 号 量 和 vfsmount_Lock 
自 旋 锁 。 


e， 如 果 已 安装 文件 系统 不 包含 任何 子安 装 文件 系统 的 安装 点 ,或 者 用 户 要 求 强制 
印 载 文件 系统 , 则 调用 umount_tree() 印 载 文 件 系 统 (及 其 所 有 子 文件 系统 )。 


f. 释放 vfsmount_lock 自 旋 锁 和 当前 进程 的 namespace->sem 读 / 写 信 号 量 。 


6.， ”减少 相应 文件 系统 根 目录 的 目录 项 对 象 和 已 安装 文件 系统 描述 符 的 引用 计数 器 值 ， 
这 些 计 数 器 值 由 path_lookup() 增 加 。 


7. 返回 retval 的 值 。 


人 on 


路 径 名 查找 


当 进 程 必须 识别 一 个 文件 时 ， 就 把 它 的 文件 路 径 名 传递 给 某 个 VEFS 系统 调用 ， 如 

open{) .mkdqir()、rename() 或 stat()。 本 节 我 们 要 说 明 VFS 如 何 实现 路 径 名 查找 , 也 

就 是 说 如 何 从 文件 路 径 名 导出 相应 的 索引 节点 。 

执行 这 一 任务 的 标准 过 程 就 是 分 析 路 径 名 并 把 它 拆 分 成 一 个 文件 名 序列 .除了 最 后 一 个 

文件 名 以 外 ， 所 有 的 文件 名 都 必定 是 目录 。 

如 果 路 径 名 的 第 一 个 字符 是 “/”"， 那 么 这 个 路 径 名 是 绝对 路 径 ， 因 此 从 current -> 

fs->root (进程 的 根 目录 ) 所 标识 的 目录 开始 搜索 。 否 则 ,路 径 名 是 相对 路 径 ， 因 此 从 

current ->fs->pwd (进程 的 当前 目录 ) 所 标识 的 目录 开始 搜索 。 

在 对 初始 目录 的 索引 节点 进行 处 理 的 过 程 中 ， 代 码 要 检查 与 第 一 个 名 字 匹 配 的 目录 项 ， 

以 获得 相应 的 索引 节点 。 然 后 ,从 磁盘 读 出 包含 那个 索引 节点 的 目录 文件 ,并 检查 与 第 

二 个 名 字 匹 配 的 目录 项 ,以 获得 相应 的 索引 节点 。 对 于 包含 在 路 径 中 的 每 个 名 字 ， 这 个 

过 程 反 复 执行 。 

目录 项 高 速 缓 存 极 大 地 加 速 了 这 一 过 程 ,因为 它 把 最 近 最 常 使 用 的 目录 项 对 象 保 留 在 内 

存 中 。 正 如 我 们 以 前 看 到 的 , 每 个 这 样 的 对 象 使 特定 目录 中 的 一 个 文件 名 与 它 相 应 的 索 

引 节 点 相 联 系 。 因 此 在 很 多 情况 下 ， 路 径 名 的 分 析 可 以 避免 从 磁盘 读 取 中 间 目 录 ，。 

但 是 , 事情 并 不 像 看 起 来 那么 简单 ,因为 必须 考虑 如 下 的 Unix 和 VEFS 文 件 系统 的 特点 ， 

* “对 每 个 目录 的 访问 权 必 须 进 行 检查 ， 以 验证 是 否 允 许 进 程 读 取 这 一 目录 的 内 容 。 

s。 文件 名 可 能 是 与 任意 一 个 路 径 名 对 应 的 符号 链接 + 在 这 种 情况 下 , 分 析 必 须 扩 展 到 
那个 路 径 名 的 所 有 分 量 。 

*。 ”符号 链接 可 能 导致 循环 引用 ,内核 必 须 考 虑 这 个 可 能 性 , 并 能 在 出 现 这 种 情况 时 将 
循环 终止 。 

。 文件 名 可 能 是 一 个 已 安装 文件 系统 的 安装 点 。 这 种 情况 作 须 检 而 到, 这 样 , 查找 操 
作 必 须 延 伸 到 新 的 文件 系统 。 

。 路径 名 查找 应 该 在 发 出 系统 调用 的 进程 的 命名 空间 中 完成 ,由 具有 不 同 命 名 空间 的 
两 个 进程 使 用 的 相同 路 径 名 ， 可 能 指定 了 不 同 的 文件 。 

路 径 名 查找 是 由 path_lcokup1() 国 数 执行 的 ， 它 接收 三 个 参数 


Tiames 


指向 要 解析 的 文件 路 径 名 的 指针 。 


> - 和 





flags 
标志 的 值 , 表示 将 会 怎样 访问 查找 的 文件 。 在 后 面 的 表 12-16 中 列 出 了 所 允许 的 标 
nd 


nameidata 数 据 结 构 的 地 址 ,这 个 结构 存放 了 查找 操作 的 结果 ， 其 字段 如 表 12-15 
所 示 。 


当 path_lookup() 返 回 时 ,nd 指向 的 nameidata 结 构 用 与 路 径 名 查找 操作 有 关 的 数据 
来 填充 。 


表 12-15: nameidata 数 据 结构 的 字段 


类 型 字段 说 明 

struct dentry * dentry 目录 项 对 象 的 地 址 

struct vfs mount * rant 已 安装 文件 系统 对 象 的 地 址 

struct gqstr last 路 径 名 的 最 后 一 个 分 量 ( 当 LOOKUP_ 
PARENT 标志 被 设置 时 使 用 ) 

unsigned int flags 查找 标志 

int last_type 路 径 名 最 后 一 个 分 量 的 类 型 ( 当 LOOKUP_ 
PARENT 标志 被 设置 时 使 用 ) 

unsigned int depth 符号 链接 媒人 套 的 当前 级 别 (参见 下 面 )， 它 必 
须 小 于 6 

char[ ]* saved_names 与 做 套 的 符号 链接 关联 的 路 径 名 数组 

union intent ”单个 成 员 联 合体 ， 指 定 如 何 访问 文件 


一 -一 一 一 一 一 一 一 一 





aentxry 和 mnt 字 段 分 别 指向 所 解析 的 最 后 一 个 路 径 分 量 的 目录 项 对 象 和 已 安装 文件 系 
统 对 象 。 这 两 个 字段 “描述 “由 给 定 路 径 名 表示 的 文件 。 


由 于 path_lookup() 函 数 返 回 的 nameidata 结 构 中 的 目录 项 对 象 和 已 安装 文件 系统 对 象 
代表 了 查找 操作 的 结果 , 因此 在 path_lookup() 的 调用 者 完成 使 用 查找 结果 之 前 , 这 两 
个 对 象 都 不 能 被 释放 。 因 此 ，path_lookup() 增 加 两 个 对 象 引 用 计数 器 的 值 。 如 果 调 用 
者 想 释 放 这 些 对 象 ， 则 调用 path_releasel() 国 数 ， 传 递 给 它 的 参数 为 nameiaata 结 构 
的 地 址 。 


flags 字段 存放 查找 操作 中 使 用 的 某 些 标志 的 值 ， 它们 在 表 12-16 中 列 出 。 这 些 标志 中 
的 大 部 分 可 由 调用 者 在 path_lookup(}) 的 flags 参数 中 进行 设置 。 
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表 12-16， 查找 操作 的 标志 
宏 

LOOKEUP FOLLOW 
LOORKUP DIRECTORY 
LOOKUP_ CONTINUE 
LOOKUE PARENT 

LOOEUP NOALT 
LOOKUP_OPEN 
LOOKUP_CREATE 


LOOKUP_ACCESS 


试图 为 一 个 文件 检查 用 户 的 权限 
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说 明 

如 果 最 后 一 个 分 量 是 符号 链接 ， 则 解释 (追踪 ) 它 
最后 一 个 分 量 必须 是 目录 

在 路 径 名 中 还 有 文件 名 要 检查 

查找 最 后 一 个 分 量 名 所 在 的 目录 

不 著 虚 模拟 根 目录 《在 80x86 体 系 结构 中 设 有 用 ) 
试图 打开 一 个 文件 

试图 创建 一 个 文件 (如果 不 存在 ) 


path_lookup () 国 数 执行 下 列 步 最 : 


1. 如 下 初始 化 nda 参数 的 某 些 字段 ， 


a， 把 last_type 字 段 置 为 LAST_ROOT (如 果 路 径 名 是 一 个 “/” 或 “/” 序列, 那 
么 这 是 必需 的 ， 参 见 后 面 的 “ 父 路 径 名 查找 “一 节 )。 


b. 把 flags 字段 置 为 参数 flags 的 值 。 

c. 把 aepth 字 段 置 为 0。 

为 进行 读 操作 而 获取 当前 进程 的 current->fs->lock 读 / 写 信 号 量 。 

如 果 路 径 名 的 第 一 个 字符 是 “/“， 那 么 查找 操作 必须 从 当前 根 目 录 开 始 : 获取 相应 
已 安装 文件 对 象 (current->fs->rootmnt) 和 目录 项 对 象 (current->fs->root) 的 地 
址 ， 增 加 引用 计数 器 的 值 ， 并 把 它们 的 地 址 分 别 存放 在 nd->mnt 和 na->qentry 中 。 
否则 ， 如 果 路 径 名 的 第 一 个 字符 不 是 “/“, 则 查找 操作 必须 从 当前 工作 目录 开始 ; 获 
得 相应 已 安装 文件 系统 对 象 (current->fs->pwdrmt) 和 目录 项 对 象 (current->fs->pwd) 
的 地 址 , 增加 引用 计数 器 的 值 , 并 把 它们 的 地 址 分 别 存放 在 nd->mt 和 nd->dentry 中 ，。 
释放 当前 进程 的 current->fs->lock 读 / 写 信 号 量 ，。 

把 当前 进程 描述 和 罕 中 的 total_1l1ink_count 字段 置 为 0 (参见 后 面 的 “符号 链接 的 
查找 ”一 节 )， 

调用 1ink_path_walk() 图 数 处 理 正在 进行 的 查找 操作 ， 


return link_path walkiname, nd}): 


我 们 现在 惟 备 描述 路 径 名 查找 操作 的 核心 ， 也 就 是 1ink_path_walkf) 国 数 。 它 接收 的 
参数 为 要 解析 的 路 径 名 指针 name 和 nameidata 数据 结构 的 地 址 nd。 


为 了 简单 起 见 ， 我 们 首先 描述 当 LOOKUP_PARENT 未 被 设置 且 路 径 名 不 包含 符号 链接 
时 , ]ink_path_walk() 做 些 什 么 (标准 路 径 名 查找 )。 接 下 来 ,我们 讨论 LOOKUP_PARENT 
被 设置 的 情况 : 这 种 类 型 的 查找 在 创建 、 删 除 或 更 名 一 个 目录 项 时 是 需要 的 , 也 就 是 在 
父 目录 名 查找 过 程 中 是 需要 的 。 最 后 ， 我 们 曾 明 该 函数 如 何 解析 符号 链接 。 


标准 路 径 名 查找 

当 LOOKUP_PARENT 标志 被 祖 零 时 ，1ink_path_walk() 执 行 下 列 步 难 : 

1. 用 nd->flags 初始 化 lookup_flags 局 部 变量 ， 

2.  h 跳 过 路 径 名 第 一 个 分 量 前 的 任何 斜 杠 (/)。 

3. ”如 果 剩 余 的 路 径 名 为 空 ， 则 返回 0。 在 nameidata 数据 结构 中 ，dentry 和 mnt 字 

段 指 向 原 路 径 名 最 后 一 个 所 解析 分 量 对 应 的 对 象 。 

4. ”如 果 na 描述 符 中 的 depth 字段 的 值 为 正 ， 则 把 1ookup_flags 局 部 变量 置 为 

LOOKUP_FOLLOW 标志 (参见 “符号 链接 的 查找 “一 节 )。 

5， 执行 一 个 循环 ,把 name 参数 中 传递 的 路 径 名 分 解 为 分 量 (中 间 的 “/ ”被 当 作文 

件 名 分 隔 符 对 待 )， 对 于 每 个 找到 的 分 量 ， 该 国 数 ; 

a. 从 nd->dentry->d_inode 检 索 最 近 一 个 所 解析 分 量 的 索引 节点 对 象 的 地 址 (在 
第 一 次 循环 中 ， 索 引 节 点 指向 开始 路 径 名 查找 的 目录 )。 

b. 检查 存放 到 索引 节点 中 的 最 近 那 个 所 解析 分 量 的 许可 权 是 否 允 许 执行 (在 Unix 
中 ， 只 有 目录 是 可 执行 的 ， 它 才 可 以 被 遍历 )。 如 果 索 引 节点 有 自 定 叉 的 
permission 方 法 , 则 执行 它 ; 否则 , 执行 exec_permission_litef) 国 数 ， 该 
函数 检查 存放 在 索引 节点 i_mode 字段 的 访问 模式 和 运行 进程 的 特权 。 在 两 种 
情况 中 ， 如 果 最 近 所 解析 分 量 不 允许 执行 ,那么 1 ink_path_walk() 跳 出 循环 
并 返回 一 个 错误 码 。 

c. 考虑 要 解析 的 下 一 个 分 最 。 从 它 的 名 字 , 函数 为 目录 项 高 速 缓 存 散 列表 计算 一 
个 32 位 的 散 列 值 。 

d， 如果 “/” 终 止 了 要 解析 的 分 量 名 ， 则 跳 过 “/” 之 后 的 任何 尾部 “/”。 

e， 如 果 要 解析 的 分 量 是 原 路 径 名 中 的 最 后 一 个 分 量 ， 则 跳 到 第 6 步 。 


f.， 如 果 分 量 名 是 一 个 “.“( 单 个 圆 点 ) ， 则 继续 下 一 个 分 量 (“ .“ 指 的 是 当前 目 
录 ， 因 此 ， 这 个 点 在 目录 内 没有 什么 效果 )。 


g. 如 果 分 量 名 是 “..“( 两 个 圆 点 )， 则 尝试 回 到 父 目 录 : 
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(1) 如 果 最 近 和 解析 的 目录 是 进程 的 根 目录 (nd->dentry 等 于 current->fs-> 
root， 而 na->mnt 等 于 current->fs->rootmnt)， 那么 再 向 上 追踪 是 不 
允许 的 : 在 最 近 解 析 的 分 量 上 调用 follow_mount () ( 见 下 面 ),， 继续 下 一 
个 分 量 。 

(2) 如 果 最 近 解 析 的 目录 是 nd->mnt 文件 系统 的 根 目 录 (nd->dentry 等 于 
nd->mnt->mt_root), 并 且 这 个 文件 系统 也 没有 被 安装 在 其 他 文件 系统 之 
上 (nd->mt 等 于 nd->mt->mt_parent)， 那么 nd->mnt 文件 系统 通常 
( 注 7) 就 是 命名 空间 的 根 文件 系统 : 在 这 种 情况 下 , 再 向 上 追踪 是 不 可 能 
的 ， 因 此 在 最 近 解 析 的 分 量 上 调用 follow_mount () (参见 下 面 )， 继 续 下 
一 个 分 量 。 


(3) 如 果 最 近 解 析 的 目录 是 nd->mnt 文 件 系 统 的 根 目录 , 而 这 个 文件 系统 被 安 
装 在 其 他 文件 系统 之 上 , 那么 就 需要 文件 系统 交换 。 因此 ,把 nd->dentry 
置 为 nd->mt->mnt_mountpoint， 且 把 nd->mnt 置 为 naQa->mnt->mnt_ 
parent ， 然 后 重新 开始 第 5g 步 {回想 一 下 ， 几 个 文件 系统 可 以 安装 在 同 
一 个 安装 点 上 )。 


(4) 如 果 最 近 解 析 的 目录 不 是 已 安装 文件 系统 的 根 目录 ， 那 么 必须 回 到 父 目 
录 ;: 把 nd->dentry 置 为 nd->dentry->d_parent， 在 父 目录 上 调用 
follcw_mount () ， 继 续 下 一 个 分 量 。 


follow_mount ( ) 图 数 检 查 nda->dqentry 是 否 是 某 文件 系统 的 安装 点 (nd-> 
dentry->d_mounted 的 值 大 于 0)， 如 果 是 ， 则 调用 lookup_mnt () 搜 索 目 录 项 
高 速 缓存 中 已 安装 文件 系统 的 根 目 录 ， 并 把 nd->dentry 和 nd->mnt 更 新 为 相 
应 已 安装 文件 系统 的 对 象 地 址 , 然后 重复 整个 操作 ( 几 个 文件 系统 可 以 安装 在 
同一 个 安装 点 上 ) 。 从 本 质 上 说 ,由 于 进程 可 能 从 某 个 文件 系统 的 目录 开始 路 径 
名 的 查找 , 而 该 目录 被 男 一 个 安装 在 其 父 目录 上 的 文件 系统 所 隐藏 ， 那么 当 需 
要 回 到 父 目录 时 ， 则 调用 follow_mount () 国 数 。 


分量 名 既 不 是 “."，, 也 不 是 “..", 因此 函数 必须 在 目录 项 高 速 缓 存 中 查找 它 。 


如 果 低 级 文件 系统 有 一 个 自 定义 的 d_hash 目录 项 方法 ， 则 调用 它 来 修改 已 在 
第 Sc 步 计算 出 的 散 列 值 。 

把 nd->flags 字段 中 LOOKUP_CONTINUE 标 志 对 应 的 位 置 位 ,这 表示 还 有 下 
一 个 分 量 要 分 析 。 

调用 do_lookup()， 得 到 与 给 定 的 父 目 录 (nd->dentry) 和 文件 名 (要 解析 的 
路 径 名 分 量 ) 相关 的 目录 项 对 象 。 该 国 数 本 质 上 首先 调用 __d_lockup() 在 目 





这 种 情况 还 可 能 发 生 在 解除 网 络 文件 系统 与 命名 空间 的 目录 树 的 连接 时 。 
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二 过 


孙 项 高 速 缓存 中 搜索 分 量 的 目录 项 对 象 。 如 果 没 有 找到 这 样 的 目录 项 对 象 ， 则 
调用 real_lookup()。 而 real_lookup() 执 行 索引 节点 的 lookup 方 法 从 磁盘 
读 取 目录 , 创建 一 个 新 的 目录 项 对 象 并 把 它 插 人 到 目录 项 高 速 缓 存 中 , 然后 创 
建 一 个 新 的 索引 节点 对 象 并 把 它 插 人 到 索引 节点 高 速 缓存 中 ( 注 8)。 在 这 一 步 
结束 时 ，next 局 部 变量 中 的 aentry 和 mnt 字 段 将 分 别 指 向 这 次 循环 要 解析 的 
分 量 名 的 目录 项 对 象 和 已 安装 文件 系统 对 象 。 


k. 调用 follow_mount () 国 数 检 查 刚 解析 的 分 量 (next .dentry) 是 否 指向 某 个 文 
件 系 统 安装 点 的 一 个 目录 (next .dentry->9d_mounted 值 大 于 0)， 
follow_mount () 更 新 next .dentry 和 next .mt 的 值 ， 以 使 它们 指向 由 这 个 路 
径 名 分 量 所 表示 的 目录 上 安装 的 最 上 层 文件 系统 的 目录 项 对 象 和 已 安装 文件 系 
统 对 象 (参见 第 $S8 步 )。 

1， 检查 刚 解 析 的 分 量 是 否 指向 一 个 符号 链接 (next .dentry->d_inode 具 有 一 个 
目 定义 的 follow_link 方 应)。 我 们 将 在 后 面 的 “符号 链接 的 查找 “一 节 中 描 
述 。 

m， 检 查 刚 解析 的 分 量 是 否 指向 一 个 目录 (next .aentry->d_inode 具 有 一 个 自 定 
义 的 1ookup 方 法 )。 如 果 役 有 , 返回 一 个 错误 码 -ENOTDIR, 因为 这 个 分 量 位 
于 原 路 径 名 的 中 间 。 

n， 把 nd->dentry 和 nd->mnt 分 别 置 为 next ,dentry 和 next .mnt， 然 后 继续 路 
径 名 的 下 一 个 分 量 。 

现在 ， 除 了 最 后 一 个 分 量 ， 原 路 径 名 的 所 有 分 量 都 被 解析 。 清 除 na->flags 中 的 

LOOKUP_CONTINUE 标志 。 

如 果 路 径 名 尾部 有 一 个 “/”, 则 把 lookup_flags 局 部 变量 中 LOOKUP_FOLLOW 和 和 

LOOKUP_DIRECTORY 标 志 对 应 的 位 置 位 ,以 强制 由 后 面 的 函数 来 解释 最 后 一 个 作 

为 目 孙 名 的 分 基 。 

检查 lookup_flags 变 量 中 LOOKUP_PARENT 标 志 的 值 。 下面 假定 这 个 标志 被 置 为 

0， 并 把 相反 的 情况 推迟 到 下 一 节 介 绍 。 

如 果 最 后 一 个 分 量 名 是 “.”( 单 个 圆 点 ), 则 终止 执行 并 返回 值 0 (无 错误 )。 在 na 

指向 的 nameidata 数 据 结 构 中 ,， dentry 和 mnt 字段 指向 路 径 名 中 倒数 第 二 个 分 量 


对 应 的 对 象 【任何 分 量 “.” 在 路 径 名 中 没有 效果 )。 


在 少数 情况 下 , 函数 real_lookup1() 可 能 发 现 所 请 求 的 索引 节点 已 经 在 索引 节点 高 速 给 
让 中 。 路 径 名 分 量 是 最 后 一 个 路 径 名 而 且 不 是 指向 一 个 目录 . 与 路 径 名 相应 的 文件 有 几 
小 硬 链 接 , 并 且 最 近 通 过 与 这 个 路 径 名 中 被 使 用 过 的 看 链接 不 同 的 硬 链 接 访 问 过 相应 的 
误 件 。 
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13. 


如 果 最 后 一 个 分 量 名 是 “. .”( 两 个 贺 点 )， 则 尝试 回 到 父 目 录 : 


a. 如 果 最 后 解析 的 目录 是 进程 的 根 目 录 (nd->dentry 等 于 current->fs->root,， 
nd->mnt 等 于 current->fs->rootmnt)， 则 在 倒数 第 二 个 分 量 上 调用 
follow_mount {), 终止 执行 并 返回 值 0 (无 错误 )。nad->dentry 和 nd->mnt 指 
向 路 径 名 的 倒数 第 二 个 分 量 对 应 的 对 象 ， 也 就 是 进程 的 根 目录 。 

b， 如 果 最 后 解析 的 目录 是 nd->mnt 文件 系统 的 根 目录 (na->dentry 等 于 nd-> 
mnt->mnt_root)， 并 且 该 文件 系统 没有 被 安装 在 另 一 个 文件 系统 之 上 (nda-> 
mt 等 于 nd->mnt->mnt_parent)， 那 么 再 同上 搜索 是 不 可 能 的 , 因此 在 倒数 
第 二 个 分 量 上 调用 follow_mount ()， 终止 执行 并 返回 值 0 {无 错误 )。 


c. 如 果 最 后 解析 的 目录 是 nd->mnt 文 件 系 统 的 根 目录 , 并 且 该 文件 系统 被 安装 在 


其 他 文件 系统 之 上 ， 那 么 把 nd->dentry 和 nd->mnt 分 别 置 为 nd->mnt-> 
mt_mountpoint 和 nd->mt->mnt_parent， 然 后 重新 执行 第 10 步 。 


d. 如 果 最 后 解析 的 目录 不 是 已 安装 文件 系统 的 根 目录 ， 则 把 nd->dentry 置 为 
nd->dentry->d_parent, 在 父 目录 上 调用 follow_mount 1(), 终 下 执行 并 返回 
值 0 (无 错误 )。nd->dentry 和 nd->mnt 指向 前 一 个 分 量 ( 即 路 径 名 倒数 第 二 
个 分 量 ) 对 应 的 对 象 。 


. 路 径 名 的 最 后 分 量 名 既 不 是 “.” 也 不 是 “..”， 因 此， 必须 在 高 速 缓存 中 查找 它 。 


如 果 低 级 文件 系统 有 自 定义 的 a_hash 目 录 项 方法 , 则 该 函数 调用 它 来 修改 在 第 5c 
步 已 经 计算 出 的 散 列 值 。 


调用 Go_lookup(), 得 到 与 父 目 录 和 文件 名 相关 的 目录 项 对 象 (参见 第 5j 步 )。 在 
这 一 步 结束 时 , next 局 部 变量 存放 的 是 指 癌 最 后 分 量 名 对 应 的 目录 项 和 已 安装 文 
件 系 统 描述 符 的 指针 。 


调用 follow_mount () 检 查 最 后 一 个 分 量 名 是 否 是 某 个 文件 系统 的 一 个 安装 点 ,如 
果 是 , 则 把 next 局 部 变量 更 新 为 最 上 层 已 安装 文件 系统 根 目录 对 应 的 目录 项 对 象 和 
已 安装 文件 系统 对 象 的 地 址 。 

检查 在 lookup_flags 中 是 否 设 置 了 LOOKUP_FOLLOW 标 志 ， 且 索引 节点 对 象 
next .dentry->d_inode 是 否 有 一 个 自 定 闵 的 follow_link 方 法 。 如 果 是 ,分量 就 
是 一 个 必须 进行 解释 的 符号 链接 ， 这 将 在 后 面 的 “符号 链接 的 查找 “一 节 描 述 。 


: 要 解析 的 分 量 不 是 一 个 符号 链接 或 符号 链接 不 该 被 解释 。 把 nd->mnt 和 nd-> 


dentry 字段 分 别 置 为 next .mnt 和 next .dentry 的 值 。 最 后 的 目录 项 对 象 就 是 整 
个 查找 操作 的 结果 。 


.检查 nd->dentry->d_inode 是 否 为 NULL, 这 发 生 在 没有 索引 节点 与 目录 项 对 象 关 


联 时 , 通常 是 因为 路 径 名 指向 一 个 不 存在 的 文件 。 在 这 种 情况 下 , 返回 一 个 错误 码 


-ENOENT 。 
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17. 路 径 名 的 最 后 一 个 分 量 有 一 个 关联 的 索引 节点 。 如 果 在 lookup_flags 中 设置 了 
LOOKUP_DIRECTORY 标志 ， 则 检查 索引 节点 是 否 有 一 个 自 定义 的 lookup 方 车 ， 也 
就 是 说 它 是 一 个 目录 。 如 果 没 有 ， 则 返回 一 个 错误 码 -ENOTDIR。 


18， 返回 值 0 (无 错误 )。nd->dentry 和 nd->mnt 指向 路 径 名 的 最 后 分 量 。 


父 路 径 名 查找 

在 很 多 情况 下 , 查找 操作 的 真正 目的 并 不 是 路 径 名 的 最 后 一 个 分 量 , 而 是 最 后 一 个 分 量 
的 前 一 个 分 量 。 例 如 ， 当 文件 被 创建 时 ， 最 后 一 个 分 量 表示 还 不 存在 的 文件 的 文件 名 ， 
而 路 径 名 中 的 其 余 路 径 指 定 新 链接 必须 揪 人 的 目录 。 因 此 , 查找 操作 应 当 取 回 最 后 分 量 
的 前 一 个 分 量 的 目录 项 对 象 。 另 举 一 个 例子 ， 把 路 径 名 如 obar 表 示 的 文件 par 拆 分 出 
来 就 包含 从 目录 foo 中 移 去 bar。 因此 , 内 核 真正 的 兴趣 在 于 访问 文件 目录 joo 而 不 是 bar。 


当 查 找 操作 必须 解析 的 是 包含 路 径 名 最 后 一 个 分 量 的 目录 而 不 是 最 后 一 个 分 量 本 身 时 ， 
使 用 LOOKUP_PARENT 标志 。 


当 LOOKUP_PARENT 标 志 被 设置 时 , 1 ink_path_walk|() 函 数 也 在 nameidata 数 据 结 构 
中 建立 last 和 1last_type 字 段 。 1ast 字 段 存放 路 径 名 中 的 最 后 一 个 分 量 名 。 last_type 
字段 标识 最 后 一 个 分 量 的 类 型 ， 可 以 把 它 置 为 如 表 12-17 所 示 的 值 之 一 。 


表 12-17;， 在 nameidata 数据 结构 中 |ast_type 字段 的 值 


值 说 明 

LAST_NORM 最 后 一 个 分 量 是 普通 文件 名 

LAST_ROOT 最 后 一 个 分 量 是 “/”( 也 就 是 整个 路 径 名 为 “/”) 
LAST_DOT 最 后 一 个 分 有 量 是 “." 

LAST_DOTDOT 最 后 一 个 分 量 是 “. .” 


LAST_BIND 最 后 一 个 分 量 是 链接 到 特殊 文件 系统 的 符号 链接 


当 整 个 路 径 名 的 查找 操作 开始 时 ,LAST_RoomT 标 志 是 由 Path_lookup () 设置 的 缺 省 值 
(参见 “路 径 名 查找 “一 节 开 始 部 分 的 描述 ) 。 如 果 路 径 名 正好 是 “/"， 则 内 核 不 改变 
last_type 字段 的 初始 值 。 


last_type 字 段 的 其 他 值 在 LOOKUP_PARENT 标志 置 位 时 由 1ink_path_walk() 设 置 ， 
在 这 种 情况 下 ， 国 数 执行 前 一 节 描 述 的 步骤 ， 直 到 第 8 步 。 不 过 ， 从 第 8 步 往 后 ， 路 径 
名 中 最 后 一 个 分 量 的 查找 操作 是 不 同 的 


i. 把 nda->last 置 为 最 后 一 个 分 量 名 。 
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2. 把 nd->last_type 初始 化 为 LAST_NORM，。 

3. 如 果 最 后 一 个 分 量 名 为 “.”( 一 个 圆 点 ) ， 则 把 nda->last_type 置 为 LAST_DOT。 
4. 如果 最 后 一 个 分 量 名 为 “. .”( 两 个 圆 点 ) , 则 把 na->last_type 置 为 LAST_DOTDOT。 
5$. ”通过 返回 值 0 (无 错误 ) 终止 。 


你 可 以 看 到 ， 最 后 一 个 分 量 根 本 就 没有 被 解释。 因此 ， 当 函数 终止 时 ，nameidata 数 据 
结构 的 dentry 和 mnt 字段 指向 最 后 一 个 分 量 所 在 目录 对 应 的 对 象 。 


符号 链接 的 查找 
回想 一 下 ， 符 号 链接 是 一 个 普通 文件 ， 其 中 存放 的 是 另 一 个 文件 的 路 径 名 。 路 径 名 可 
以 包含 符号 链接 ， 且 必须 由 内 核 来 解析 。 


例如 ， 如 果 /foo/bar 是 指向 (包含 路 径 名 ) ../dir 的 一 个 符号 链接 ， 那 么 ，/foo/bar/ file 
路 径 名 必须 由 内 核 解析 为 对 /dir/file 文件 的 引用 。 在 这 个 例子 中 ， 内 核 必须 执行 两 个 不 
同 的 查找 操作 。 第 一 个 操作 解析 Moovbar: 当 内 核发 现 bar 是 一 个 符号 链接 名 时 , 就 必须 
提取 它 的 内 容 并 把 它 解 释 为 另 一 个 路 径 名 。 第 二 个 路 径 名 操作 从 第 一 个 操作 所 达到 的 目 
录 开 始 , 继续 到 符号 链接 路 径 名 的 最 后 一 个 分 量 被 解析 。 接 下 来 ， 原 来 的 查找 操作 从 第 
二 个 操作 所 达到 的 目录 项 恢复 ， 且 有 了 原 目 孙 名 中 紧 随 符号 链接 的 分 量 。 


对 于 更 复杂 的 情景 , 含有 符号 链接 的 路 径 名 可 能 包含 其 他 的 符号 链接 。 你 可 能 认为 解析 
这 类 符号 链接 的 内 核 代码 是 相当 难 理 解 的 , 但 并 非 如 此 ， 代码 实际 上 是 相当 简单 的 ， 因 
为 它 是 递归 的 。 


然而 ， 难 以 驾驭 的 递归 本 质 上 是 危险 的 。 例 如 ， 假定 一 个 符号 链接 指向 自己 。 当 然 ， 解 
析 含 有 这 样 符号 链接 的 路 径 名 可 能 导致 无 休止 的 递归 调用 流 , 这 又 依次 引发 内 核 栈 的 谥 
出 。 当 前 进程 的 描述 符 中 的 1ink_count 字段 用 来 避免 这 种 问题 : 每 次 递归 执行 前 增加 
这 个 字段 的 值 ， 执 行 之 后 减少 其 值 。 如 果 该 字段 的 值 达到 6， 整 个 循环 操作 就 以 错误 码 
结束 。 因 此 ， 符 号 链接 媒人 套 的 层 数 不 超过 5。 


此 外 ,当前 进程 的 描述 符 中 的 total_link_count 字段 记 录 在 原 查 找 操作 中 有 多 少 符号 
链接 (甚至 非 败 套 的 ) 被 跟踪 。 如 果 这 个 计数 器 的 值 到 40， 则 查找 操作 中 止 。 没有 这 个 
计数 器 , 怀 有 恶意 的 用 户 就 可 能 创建 一 个 病态 的 路 径 名 , 让 其 中 包含 很 多 连续 的 符号 链 
接 ， 使 内 核 在 无 休止 的 查找 操作 中 冻结 。 


这 就 是 代码 基本 工作 的 方式 ; 一 旦 1ink_path_walk() 函数 检索 到 与 路 径 名 分 量 相 关 的 
目录 项 对 象 , 就 检查 相应 的 索引 节点 对 象 是 否 有 自 定义 的 follow_link 方 法 (参见 “ 标 
准 路 径 名 查找 “一 节 中 的 第 51 步 和 第 14 步 )。 如 果 是 , 索引 节点 就 是 一 个 符号 链接 ,在 
” 原 路 径 名 的 查找 操作 进行 之 前 就 必须 先 对 这 个 符号 链接 进行 解释 。 
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在 这 种 情况 下 ，link_path_walk() 函 数 调 用 do_follow_link({)， 前 者 传递 给 后 者 
的 参数 为 符号 链接 目录 项 对 象 的 地 址 dentry 和 nameidata 数据 结构 的 地 址 na。 
do_follow_link() 依 次 执行 下 列 步 又: 

1]. 检查 current->link_count 小 于 5， 否 则 ， 返 回 错误 码 -ELOOP。 

2. 检查 current->total_link_count 小 于 40， 否则 ， 返 回 错误 码 -ELOOP。 


3. 如果 当前 进程 需要 , 则 调用 cond_reschedaf) 进行 进程 交换 (设置 当前 进程 描述 符 
thread_info 中 的 TIF_NEED_RESCHED 标志 )。 


4. 递增 current->link_count, current->total_link_count 和 nd->depth 的 值 ， 
5. ”更 新 与 要 解析 的 符号 链接 关联 的 索引 节点 的 访问 时 间 。 
6. ”调用 与 具体 文件 系统 相关 的 函数 来 实现 fol1low_link 方法 ， 给 它 传递 的 参数 为 


dentry 和 nd。 它 读 取 存 放 在 符号 链接 索引 节点 中 的 路 径 名 , 并 把 这 个 路 径 名 保存 
在 nd->saved_names 数组 的 合适 项 中 ，。 


了 ， 调用 __vfs_follow_link() 国 数 , 给 它 传 递 的 参数 为 地 址 na 和 mnq->saved_names 
数组 中 (参见 下 面 ) 路 径 名 的 地 址 。 

8. 如果 定义 了 索引 布点 对 象 的 put_link 方 法 ,就 执行 它 ,释放 由 follow_link 方 法 
分 配 的 临时 数据 结构 。 

9. 减少 current->link_count 和 na->depth 字段 的 值 ， 


10， 返回 由 __vfs_follow_link() 函数 返回 的 错误 码 (0 表示 无 错误 )。 
__vfs_follow_linkf) 国 数 本 质 上 依次 执行 下 列 操作 


1. 检查 符号 链接 路 径 名 的 第 一 个 字符 是 否 是 “/“: 在 这 种 情况 下 , 已 经 找到 一 个 绝 
对 路 径 名 ， 因 此 没有 必要 在 内 存 中 保留 前 一 个 路 径 的 任何 信息 。 如 果 是 ， 对 
nameiaata 数 据 结构 调用 path_release{), 因此 释放 由 前 一 个 查找 步 允 产生 的 对 
象 ; 然后 ， 设 置 nameidata 数据 结构 的 dentry 和 mnt 字段， 以 使 它们 指向 当前 进 
程 的 根 目录 ， 

2. ”调用 1ink_path_walk 1) 解析 符 号 链 的 路 径 名 ， 传 递 给 它 的 参数 为 路 径 名 和 nd。 

3. 返回 从 1ink_path_walk() 取 回 的 值 ， 

当 do_follow_link|) 最 后 终止 时 , 它 把 局 部 变量 next 的 dentry 字 段 设 置 为 目录 项 对 象 的 


地 址 ,而 这 个 地 址 由 符号 链接 传递 给 原先 就 执行 的 link_path_walk()。link_path_walk() 
明 数 然后 进行 下 一 步 。 
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VFS 系统 调用 的 实现 


为 了 简短 起 见 ， 我 们 不 打算 对 表 12-1 中 列 出 的 所 有 VES 系统 调用 的 实现 进行 讨论 。 不 
过 , 概略 叙述 几 个 系统 调用 的 实现 还 是 有 用 的 , 这 里 仅仅 说 明 VFS 的 数据 结构 怎样 互相 
作用 。 
让 我 们 重新 考虑 一 下 在 本 章 开 始 所 提 到 的 例子 ,用户 发 出 了 一 条 shell 命令 : 把 /fioppy/ 
TEST 中 的 MS-DOS 文件 拷贝 到 /timp/test 中 的 Ext2 文件 中 。 命 令 shell 调用 一 个 外 部 程 
序 (如 cp)， 我 们 假定 cp 执行 下 列 代码 厂 段 : 
inf = open{(’/floppy/TEST “", 0O_RDONLY, 0); 
outf = open(’ /tmp/test ", O WRONLY | O_CREAT | O_TRUNC, 0600); 
do 
pm = readlinf, buf, 4096}; 
writetoutf, buf, len}; 
} While (len}; 
close(loutft}.; 
close(inf}: 
实际 上 , 真正 的 cp 程序 的 代码 要 更 复杂 些 , 因为 它 还 必须 检查 由 每 个 系统 调用 返回 的 可 
能 的 出 错 码 。 在 我 们 的 例子 中 ， 我 们 只 把 注意 力 集中 在 拷贝 操作 的 “正常 “行为 上 。 


open() 系 统 调用 

open() 系统 调用 的 服务 例 程 为 sys_ocpen|) 函 数 , 该 函数 接收 的 参数 为 要 打开 文件 的 
路 径 名 filename、 访 问 模式 的 一 些 标志 flags, 以 及 如 果 该 文件 被 创建 所 需要 的 许可 权 
位 掩 码 mode。 如 果 该 系统 调用 成 功 ， 就 返回 一 个 文件 措 述 符 ， 也 就 是 指向 文件 对 象 的 
指针 数组 current->files->fd 中 分 配给 新 文件 的 索引 ; 否则 ， 返 回 一 1。 

在 我 们 的 例子 中 , cpen (} 被 调用 两 次 ; 第 一 次 是 为 读 (0_RDONLY 标 志 ) 而 打开 Wloppy/ 
TEST, 第 二 次 是 为 写 (0_WRONLY 标志 ) 而 打开 Wmp/Wtest。 如 果 /mpWtest 不 存在 ， 则 该 
文件 被 创建 (0_CREAT 标 志 )，, 文件 主 对 该 文件 具有 独占 的 读 写 访问 权限 (在 第 三 个 参 
数 中 的 八进制 数 0600)。 


相反 ， 如 果 访 文件 已 经 存在 ， 则 从 头 开始 重 写 它 (0_TRUNC 标志 )。 表 12-18 列 出 了 
open () 系统 调 用 的 所 有 标志 。 

表 12-18: open() 系 统 调用 的 标志 

标志 名 说 明 
CO_RDONLY 为 读 而 打开 
CO_WRONLY 为 写 而 打开 
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表 12-18: open() 系 统 调用 的 标志 ( 续 ) 


标志 名 说 明 

O_RDWR 为 读 和 写 而 打开 

O_CREAT 如 果 文 件 不 存在 ， 就 创建 它 
O_EXCL 对 于 O_CREAT 标志 ， 如 果 文 件 已 经 存在 ， 则 失败 
O_NOCTTY 从 不 把 文件 看 作 控 制 终端 
O_TRUNC 截断 文件 (删除 所 有 现 有 的 内 容 ) 
O_APPEND 总 是 在 文件 末尾 写 
O_NONBLOCK 没有 系统 调用 在 文件 上 阻塞 
O_NDELAY 与 O_NONBLOCK 相同 

O_SYNC 同步 写 (阻塞 ， 直 到 物理 写 终止 ) 
FASYNC 通过 信号 发 出 MO 事件 通告 
O_DIRECT 直接 IO 传送 《无 内 核 缓冲 ) 


O_LARGEFLLE 
O_DIRECTORY 
OO_NOFOLLOW 


OO_NOATIME 


大 型 文件 (长度 大 于 2GB) 

如 果 文 件 不 是 一 个 目录 ， 则 失败 

不 解释 路 径 名 中 尾部 的 符号 链接 

不 更 新 索引 忆 点 的 上 次 访问 时 间 


下 面 来 描述 一 下 sys_open() 国 数 的 操作 。 它 执行 如 下 操作 ; 


1. 调用 getname() 从 进程 地 址 空间 读 取 该 文件 的 路 径 名 。 


2， 调用 get_unused_fd() 在 current->files->fd 中 查找 一 个 空 的 位 置 。 相 应 的 索 
引 (新 文件 描述 符 ) 存放 在 fd 局 部 变量 中 。 


3. 调用 filp_open{) 国 数 ， 传 递 给 它 的 参数 为 路 径 名 、 访 问 模 式 标 志 以 及 许可 权 位 
掩 码 。 这 个 函数 依次 执行 下 列 步 又 : 


a 把 访问 模式 标志 拷贝 到 namei_flags 标 志 中 , 但 是 , 用 特殊 的 格式 对 访问 模式 
标志 O_RDONLY、O_WRONLY 和 O_RDWR 进行 编码 : 如果 文 件 访 问 需 要 读 特 
权 ， 那 么 只 设置 namei_flags 标志 的 下 标 为 0 的 位 (最低 位)， 类 似 地 ， 如 果 
文件 访问 需要 写 特 权 , 就 只 设置 下 标 为 1 的 位 。 注意, 不 可 能 在 open() 系 统 调 
用 中 不 指定 文件 访问 的 读 或 写 特权 ; 不 过 , 这 种 情况 在 涉及 符号 链接 的 路 径 名 
查找 中 则 是 有 意义 的 。 

b， 调用 open_namei ()， 传递 给 它 的 参数 为 路 径 名 、 修 改 的 访问 模式 标志 以 及 局 
部 nameidata 数据 结构 的 地 址 。 读 函数 以 下 列 方式 执行 查找 操作 : 


4. 
a 


HR 


。 如 果 访 问 模式 标志 中 没有 设置 0_CREAT, 则 不 设置 LOOKUP_PARENT 标 
志 而 设置 LOOKUP_OPEN 标志 后 开始 查找 操作 。 此 外 ， 只 有 O_NOFOLLOW 
被 请 零 , 才 设置 LOOKUP_FOLLOW 标 志 , 而 只 有 设置 了 0_DIRECTORY 标 
志 ， 才 设置 LOOKUP_DIRECTORY 标志 。 


*。 如果 在 访问 模式 标志 中 设置 了 O_CREAT, 则 以 LOOKUP_PARENT、LOOKUP_ 
OPEN 和 LOOKUP_CREATE 标 志 的 设置 开始 查找 操作 。 一 旦 path_Lookup () 
国 数 成 功 返 回 ， 则 检查 请 求 的 文件 是 否 已 存在 。 如 果 不 存 在 ， 则 
调用 父 素 引 节 点 的 create 方 法 分 配 一 个 新 的 磁盘 索引 节点 。 


open_namei () 函数 也 在 查找 操作 确定 的 文件 上 执行 几 个 安全 检查 。 例 如 ， 读 
函数 检查 与 已 找到 的 目录 项 对 象 关联 的 索引 节点 是 否 存 在 . 它 是 否 是 一 个 普通 
文件 , 以 及 是 否 允 许 当 前 进程 根据 访问 模式 标志 访问 它 。 如 果 文 件 也 是 为 写 打 
开 的 ， 则 该 函数 检查 文件 是 否 被 其 他 进程 加 锁 。 


. 调用 dentry_open1() 函 数 , 传递 给 它 的 参数 为 访问 模式 标志 、 目 录 项 对 象 的 地 


址 以 及 由 查找 操作 确定 的 已 安装 文件 系统 对 象 。 读 函数 依次 执行 下 列 操作 
(1) 分 配 一 个 新 的 文件 对 象 。 


(2) 根据 传递 给 cpen() 系 统 调用 的 访问 模式 标志 初始 化 文件 对 象 的 E_flags 和 
f_mode 字段 。 


(3) 根据 作为 参数 传递 来 的 目录 项 对 象 的 地 址 和 已 安装 文件 系统 对 象 的 地 址 初 
始 化 文件 对 象 的 上 _fentry 和 f_vfsmt 字段 。 


(4) 把 二 op 字段 设置 为 相应 索引 节点 对 象 1_fop 字 段 的 内 容 。 这 就 为 进一步 的 
文件 操作 建立 起 所 有 的 方法 。 

(5) 把 文件 对 象 插入 到 文件 系统 超级 块 的 s_files 字 段 所 指向 的 打开 文件 的 链表 。 

(6) 如 果 文 件 操作 的 open 方法 被 定义 ， 则 调用 它 。 

(7) 调用 file_ra_state_init() 初 始 化 预 读 的 数据 结构 (参见 第 十 六 章 )。 

(8) 如 果 0_DIRECT 标志 被 设置 ， 则 检查 直接 UVO 操作 是 否 可 以 作用 于 文件 
(参见 第 十 六 章 )。 

(9) 返回 文件 对 象 的 地 址 。 


d. 返回 文件 对 象 的 地 址 。 
把 current->files->fd[fad] 置 为 由 dentry_cpen() 返 回 的 文件 对 象 的 地 址 。 
返回 fd。 


read() 和 write() 系 统 调用 
让 我 们 再 回 到 cp 例子 的 代码 。open () 系 统 调用 返回 两 个 文件 描述 符 ， 分别 存 放 在 inf 
和 coutt 变 量 中 。 然 后 ,程序 开始 循环 。 在 每 次 循环 中 , /ioppy/TEST 文 件 的 一 部 分 被 找 
贝 到 本 地 缓冲 区 (read() 系 统 调用 ) 中 ， 然后， 这 个 本 地 缓冲 区 中 的 数据 又 被 措 贝 到 / 
tmp/test 文件 (writet{) 系 统 调 用 )。 


read() 和 write() 系 统 调用 非常 相似 。 它 们 都 需要 三 个 参数 : 一 个 文件 描述 符 fa、 
个 内 存 区 的 地 址 buf (该 缓冲 区 包含 要 传送 的 数据 ) ,以 及 一 个 数 count (指定 应 该 传送 
多 少 字 市 )。 当 然 ，read() 把 数据 从 文件 传送 到 缓冲 区 ， 而 write() 执 行 相反 的 操作 。 
两 个 系统 调用 都 返回 所 成 功 传送 的 字 节 数 ， 或 者 发 送 一 个 错误 条 件 的 信号 并 返回 一 1。 


返回 值 小 于 count 并 不 意味 着 发 生 了 错误 。 即 使 请 求 的 字 节 没有 都 被 传送 , 也 总 是 允许 
内 核 终止 系统 调用 ， 因 此 用 户 应 用 程序 必须 检查 返回 值 并 重新 发 出 系统 调用 (如 果 必 
要 )。 在 以 下 几 种 典型 情况 下 返回 小 的 值 : 当 从 管道 或 终端 设备 读 取 时 ， 当 读 到 文件 的 
末尾 时 ， 或 者 当 系 统 调用 被 信号 中 断 时 。 文 件 结束 条 件 (EOF) 很 容易 从 read() 的 空 
返回 值 中 判断 出 来 。 这 个 条 件 不 会 与 因 信 和 号 引起 的 异常 终止 混 请 在 一 起 , 因为 如 果 读 取 
数据 之 前 read () 被 一 个 信号 中 断 ， 则 发 生 一 个 错误 。 


读 或 写 操作 总 是 发 生 在 由 当前 文件 指针 所 指定 的 文件 偏 移 处 (文件 对 象 的 E_pos 字 段 ) 。 
两 个 系统 调用 都 通过 把 所 传送 的 字 节 数 加 到 文件 指针 上 而 更 新 文件 指针 。 


向 而 言 之 ，sys_read() (read() 的 服务 例 程 ) 和 sys_write{})(write() 的 服务 例 程 ) 

儿 和 平 都 执行 相同 的 步骤 : 

1. 调用 fget_light1() 从 fa 获取 相应 文件 对 象 的 地 址 file (参见 前 面 的 “与 进程 相 
关 的 文件 “一 节 )。 

2. 如 果 file->f_mode 中 的 标志 不 允许 所 请 求 的 访问 ( 读 或 写 操作 )， 则 返回 一 个 错 
误 码 -EBADF 。 

3. ”如 果 文 件 对 和 象 没有 read() 或 aio_read() {write() 或 aio_write()) 文件 操作 ， 
则 返回 一 个 错误 码 -EINVAL。 

4. 调用 access_ck() 粗 略 地 检查 buf 和 counc 参 数 (参见 第 十 章 的 “验证 参数 “一 节 )。 

5.， 调用 rw_verify_areaf) 对 要 访问 的 文件 部 分 检查 是 否 有 冲突 的 强制 锁 。 如 果 有 ， 
则 返回 一 个 错误 码 ， 如 果 该 销 已 经 被 F_SETLKW 命令 请 求 ， 那 么 就 挂 起 当前 进程 
【参见 本 章 后 面 的 “文件 加 锁 “ 一 节 ) 。 

6， 调用 file->f_op->read 或 file->f_op->write 方 法 (如 果 已 定义 ) 来 传送 数据 ， 
否则 。 调 用 file->f_op->aio_ read 或 file->f_op->aio write 方 法 。 所 有 这 些 


i 





方法 (在 第 十 六 章 讨 论 ) 都 返回 实际 传送 的 字 节 数 。 另 一 方面 的 作用 是 , 文件 指针 
被 适当 地 更 新 。 

7.， 调用 fput_light() 和 释放 文件 对 象 。 

8. 返回 实际 传送 的 字 节 数 。 


close() 系 统 调 用 


在 我 们 例子 的 代码 中 ， 循 环 结束 发 生 在 read{) 系 统 调用 返回 0 时 ， 也 就 是 说 ， 发 生 在 
/flioppy/TEST 中 的 所 有 字 节 被 拷贝 到 /timp/Wtest 中 时 。 然 后 ,程序 关闭 打开 的 文件 ， 这 是 
因为 拷贝 操作 已 经 完成 。 
closel) 系 统 调用 接收 的 参数 为 要 关闭 文件 的 文件 描述 符 fa sys_close() 服 务 例 程 执 
行 下 列 操作 ， 
1. 获得 存放 在 current->files->fd[fd] 中 的 文件 对 象 的 地 址 ; 如 果 它 为 NULL ， 则 
返回 一 个 出 错 码 。 
2. 把 current->files->fd[fqd] 置 为 NULL。 和 释放 文件 描述 和 罕 fa， 这 是 通过 清除 
current->files 中 的 copen_fds 和 close_on_exec 字 段 的 相应 位 来 进行 的 {参见 
第 二 十 章 中 有 关 关 闭 执行 标志 的 内 容 )。 
3. ”调用 filp_close(), 该 函数 执行 下 列 操作 ， 
a， 调用 文件 操作 的 flush 方法 (如果 已 定义 )。 
b. 释放 文件 上 的 任何 强制 销 (参见 下 一 节 ) 。 
c.， 调用 fput () 释放 文件 对 象 。 
4. 返回 0 或 一 个 出 错 码 。 出 错 码 可 由 flush 方 法 或 文件 中 的 前 一 个 写 操作 错误 产生 。 


文件 加 锁 


当 一 个 文件 可 以 被 多 个 进程 访问 时 , 就 会 出 现 同步 问题 。 如果 两 个 进程 试图 对 文件 的 同 
一 位 置 进行 写 会 出 现 什 么 情况 ?或 者 ,如 果 一 个 进程 从 文件 的 某 个 位 置 进行 读 而 另 一 个 
进程 正在 对 间 一 位 置 进 行 写 会 出 现 什么 情况 ? 

在 传统 的 Unix 系统 中 , 对 文件 同一 位 置 的 同时 访问 会 产生 不 可 预料 的 结果 。 但 是 , Unix 


系统 提供 了 一 种 允许 进程 对 一 个 文件 区 进行 加 锁 的 机 制 , 以 使 同时 访问 可 以 很 容易 地 被 
避免 。 


2 OO 


POSIX 标 准 规定 了 基于 fcnt1() 系 统 调用 的 文件 加 锁 机 制 , 这 样 就 有 可 能 对 文件 的 任意 
一 部 分 (其 至 一 个 字 节 ) 加 锁 或 对 整个 文件 (包含 以 后 要 追加 的 数据 ) 加 锁 。 因 为 进程 
可 以 选择 仅仅 对 文件 的 一 部 分 加 锁 ， 因 此 ， 它 也 可 以 在 文件 的 不 同 部 分 保持 多 个 锁 。 


这 种 锁 并 不 把 不 知道 加 锁 的 其 他 进程 关 在 外 面 ,与 用 于 保护 代码 中 临界 区 的 信号 量 类 似 ， 
可 以 认为 这 种 锁 起 “劝告 “的 作用 ,因为 只 有 在 访问 文件 之 前 其 他 进程 合作 检查 锁 的 存 
在 时 ， 锁 才 起 作用 。 因 此 ，POSIX 的 锁 被 称 为 劝告 锁 (advisory lock)。 


传统 的 BSD 变 体 通 过 flock() 系 统 调 用 来 实现 劝告 锁 , 这 个 调用 不 允许 进程 对 文件 的 一 
个 区 字段 进行 加 锁 , 而 只 能 对 整个 文件 进行 加 锁 , 传统 的 System V 变 体 提供 了 lockf 1() 
库 函 数 ， 它 仅仅 是 fcnt1 () 的 一 个 接口 。 


更 重要 的 是 ，System V Release 3 引信 了 强制 加 锁 (mandatory locking): 内 核 检查 
open() ,read{) 和 write() 系 统 调 用 的 每 次 调用 都 不 违背 在 所 访问 文件 上 的 强制 锁 。 
此 ， 强 制 锁 甚 至 在 非 合 作 的 进程 之 间 也 被 强制 加 上 ( 注 9)。 


不 管 进 程 是 使 用 劝告 锁 还 是 强制 锁 , 它们 都 可 以 使 用 共享 读 锁 和 独占 写 锁 。 在 文件 的 某 
个 区 字段 上 , 可 以 有 任意 多 个 进程 进行 读 , 但 在 同一 时 刻 只 能 有 一 个 进程 进行 写 。 此外， 
当 其 他 进程 对 同一 个 文件 都 拥有 自己 的 读 锁 时 ， 就 不 可 能 获得 一 个 写 锁 ， 反 之 亦 然 。 


Linux 文件 加 锁 


Linux 支持 所 有 的 文件 加 锁 方式 : 劝告 锁 和 强制 锁 ,， 以 及 fcnt1()、flock(y 和 1ockf1) 
系统 调用 。 不 过 ，lockf () 系 统 调用 仅仅 是 一 个 标准 的 库 国 数 。 


flock() 系 统 调用 不 管 MS_MANDLOCK 安装 标志 如 何 设置 ， 只 产生 劝告 锁 。 这 是 任何 类 
Unix 操作 系统 所 期 望 的 系统 调用 行为 。 在 Linux 中 ， 增 加 了 一 种 特殊 的 flock() 强 制 
锁 , 以 允许 对 专 有 的 网 络 文件 系统 的 实现 提供 适当 的 支持 。 这 就 是 所 谓 的 共享 模式 强制 
锁 ;， 当 这 个 锁 被 设置 时 ， 其 他 任何 进程 都 不 能 打开 与 锁 访 问 模 式 冲 突 的 文件 。 不 鼓励 
本 地 Unix 应 用 程序 中 使 用 这 个 特征 ， 因 为 这 样 加 锁 的 源 代 码 是 不 可 移植 的 。 


在 Linux 中 还 引入 了 另 一 种 基于 fcntl1() 的 强制 锁 ， 叫 做 租借 锁 (lease)。 当 一 个 进程 
试图 打开 由 租借 锁 保 护 的 文件 时 , 它 照 样 被 阻塞 。 然而, 拥有 锁 的 进程 接收 到 一 个 信号 。 








注 9: 很 琳 怪 ， 即 使 一 个 进 枉 拥 有 某 个 文件 上 的 强制 销 ， 其 他 某 个 进程 仍 卜 全 解除 链接 {或 删 
除 ) 这 个 文件 。 这 种 令 人 困 圳 的 情况 是 可 能 发 生 的 , 因为 当 一 个 进程 删除 文件 硬 链 接 时 ， 
它 不 修改 其 内 容 ， 而 只 是 修改 和 它 的 父 目 骤 的 内 容 。 
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一 旦 该 进程 得 到 通知 ， 它 应 当 首先 更 新 文件 ， 以 使 文件 的 内 容 保持 一 致 ， 然 后 释放 销 。 
如 果 拥 有 者 不 在 预定 的 上 时间 间隔 (可 以 通过 在 /proc/sys/fs/lease-break-time 文件 中 写 人 
秒 数 来 进行 调整 ， 通 常 为 45s) 内 这 么 做 ， 则 租借 锁 由 内 核 目 动 删除 ， 且 人 允许 阻塞 的 进 
程 继续 执行 。 


进程 可 以 采用 以 下 两 种 方式 获得 或 释放 一 个 文件 劝告 锁 ， 


。 ”发 出 flock() 系 统 调用 。 传 递 给 它 的 两 个 参数 为 文件 描述 符 fa 和 指定 锁 操 作 的 命 
令 。 该 锁 应 用 于 整个 文件 。 


。 ”使 用 fcntl1() 系 统 调用 。 传 递 给 它 的 三 个 参数 为 文件 描述 符 fa、 指 定 锁 操 作 的 命 
令 以 及 指向 flock 结 构 的 指针 (参见 表 12-20)。flock 结 构 中 的 几 个 字段 允许 进程 
指定 要 加 锁 的 文件 部 分 。 因 此 进程 可 以 在 同一 文件 的 不 同 部 分 保持 几 个 锁 。 


fcnt1l1{} 和 flock() 系 统 调 用 可 以 在 同一 文件 上 同时 使 用 , 但 是 通过 fcnt1() 加 锁 的 文 
件 看 起 来 与 通过 flock() 加 锁 的 文件 不 一 样 , 反 之 亦 然 。 这 样 当 应 用 程序 使 用 一 种 依赖 
于 某 个 库 的 锁 ， 而 该 库 同 时 使 用 另 一 种 类 型 的 锁 时 ， 可 以 避免 发 生死 锁 。 


处 理 强 制 文件 锁 要 更 复杂 些 。 步 最 如 下 : 


1. 安装 文件 系统 时 强制 锁 是 必需 的 ， 可 使 用 mount 命令 的 -o mand 选项 在 mount {) 
系统 调用 中 设置 MS_MANDLOCK 标志 。 缺 省 操作 是 不 使 用 强制 锁 。 


2. ”通过 设置 文件 的 set-group 位 (SGID) 和 清除 group-execute 许可 权 位 将 它们 标记 
为 强制 锁 的 候选 者 。 因 为 当 group-execute 位 为 0 时 ，set-group 位 也 设 有 任何 意 多 ， 
因此 内 核 将 这 种 合并 解释 成 使 用 强制 锁 而 不 是 劝告 锁 。 


3. ”使 用 fcnt1l1() 系 统 调用 (参见 下 面 ) 获得 或 释放 一 个 文件 销 。 


处 理 租借 销 比 处 理 强 制 锁 要 容易 得 多 ; 调用 具有 F_SETLEASE 或 F_GETLEASE 命 令 的 
系统 调用 fcnt11}) 就 足够 了 。 使 用 另 一 个 带 有 F_SETSIG 命 令 的 fcnt1 () 系 统 调用 可 以 
改变 传送 给 租借 锁 进程 拥有 者 的 信号 类 型 。 


当 维 护 所 有 可 以 修改 文件 内 容 的 系统 调用 时 ， 除 了 read() 和 write() 系 统 调用 中 的 检 
查 以 外 ,内核 还 需要 考虑 强制 锁 的 存在 性 。 例 如 ， 如 果 文 件 中 存在 任何 强制 锁 ， 那 么 带 
有 0_TRUNC 标志 的 open() 系 统 调 用 就 会 失效 。 


下 一 节 描 述 内 核 使 用 的 主要 数据 结构 , 它们 用 于 处 理由 flock() (FL_FLOCK 锁 ) 和 fcnt11) 
系统 调用 (FL_POSIX 锁 ) 实现 的 文件 锁 。 
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文件 锁 的 数据 结构 

Linux 中 所 有 类 型 的 锁 都 是 由 相同 的 file_lock 数据 结构 描述 的 ， 它 的 字段 如 表 12-19 

所 示 。 

表 12-19; file_lock 数 据 结构 的 字段 

类 型 字段 说 明 

struct file_ lock * f1_next 与 索引 节点 关联 的 锁链 表 中 
的 下 一 个 元 素 

struct list_ head £1_link 用 于 活动 或 阻塞 链表 的 指针 

struct list head £1 block 用 于 锁 的 等 待 者 链表 的 指针 

struct files struct * £1_owner 文件 所 有 者 的 files_struct 

unsigned int f1 pid 进程 拥有 者 的 PID 

wait_queue head 上 fl wait 阻塞 进程 的 等 待 队 列 

struct file * fi_file 指向 文件 对 象 的 指针 

unsigned char fl 于 1aoS 销 标 志 

unsigned char fl_type 锁 类 型 

loff _t f1_scart 被 锁 区 字段 的 起 始 偏 移 量 

LOEF 十 £1_end 被 锁 区 字段 的 末尾 偏 移 量 

struct fasync_struct * fl_fasync 用 于 租借 销 中 断 通 知 

unsigned long fl_break_time 租借 结束 前 的 剩余 时 间 

struct file lock operations * fl] cps 指向 文件 锁 操 作 的 指针 

struct lock manager operations * fl1 mops 指向 锁 管 理 操 作 的 指针 

人 . a 具体 文件 系统 的 信息 _ 


指向 磁盘 上 同一 文件 的 所 有 1lock_file 结 构 都 被 收集 在 一 个 单 向 链表 中 , 其 第 一 个 元 素 
由 索引 布点 对 象 的 i_flock 字 段 所 指向 。file_lock 结 构 的 f]_next 字 段 指 向 链表 中 的 
下 一 企 元 素 ， 


当 发 出 阻塞 系统 调用 的 进程 请 求 一 个 独占 锁 而 同一 文件 也 存在 共享 锁 时 , 该 请 求 不 能 立 
即 得 到 福 足 ， 并 且 进 程 必 须 被 挂 起 。 因 此 该 进程 被 插入 到 由 阻塞 销 file_lock 结构 的 
fl1_wait 字 有 段 指 向 的 等 待 队 列 中 。 使 用 两 个 链表 区 分 已 满足 的 锁 请 求 ( 活 动 锁 ) 和 那些 
不 能 立刻 得 到 满足 的 锁 请 求 (阻塞 锁 )。 


所 有 的 活动 锁 被 链接 在 “全 局 文件 锁链 表 "” 中, 该 表 的 首 元 素 被 存放 在 file_lock_list 
变量 中 。 类 似 地 ， 所 有 的 阻塞 锁 被 链接 在 “阻塞 链表 “中 ， 该 表 的 首 元 素 被 存放 在 
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blocked_1ist 变 量 中 。 使 用 f1_1link 字 段 可 把 lock_file 结 构 插入 到 上 述 任 何 一 个 链表 
中 。 


最 后 的 一 项 要 点 是 ， 内 核 必须 跟踪 所 有 与 给 定 活动 锁 (“blocker”) 关联 的 阻塞 锁 
( “waiters"): 这 就 是 为 什么 要 使 用 链表 根据 给 定 的 blocker 把 所 有 的 waiter 链接 在 一 起 
的 原因 。blocker 的 £1_block 字段 是 链表 的 伪 首 部 ， 而 waiter 的 f1_block 字段 存放 了 
指向 链表 中 相 邻 元 素 的 指针 。 


FL_FLOCK 锁 


FL_LOCK 锁 总 是 与 一 个 文件 对 象 相关 联 ， 因 此 由 一 个 打开 该 文件 的 进程 (或 共享 同一 
打开 文件 的 子 进程 ) 来 维护 。 当 一 个 锁 被 请 求 或 允许 时 , 内核 就 把 进程 保持 在 同一 文件 
对 象 上 的 任何 其 他 锁 都 替换 掉 。 这 只 发 生 在 进程 想 把 一 个 已 经 拥有 的 读 锁 改变 为 一 个 写 
锁 , 或 把 一 个 写 锁 改变 为 一 个 读 锁 时 。 此 外 ， 当 fput () 函数 正在 释放 一 个 文件 对 象 时 ， 
对 这 个 文件 对 象 加 的 所 有 FL_LOCK 锁 都 被 撒 销 。 不 过 ， 也 有 可 能 由 其 他 进程 对 这 同一 
文件 (索引 节点 ) 设置 了 其 他 FL_LOCK 读 锁 ， 它 们 依然 是 有 效 的 。 


flock() 系 统 调用 允许 进程 在 打开 文件 上 申请 或 删除 劝告 锁 。 它 作用 于 两 个 参数 ， 要 加 锁 
文件 的 文件 描述 符 fa 和 指定 锁 操 作 的 参数 cmd。 如 果 cmd 参 数 为 LOCK_SH, 则 请 求 一 个 
共享 的 读 销 ; 为 LOCK_EX, 则 请 求 一 个 互 斥 的 写 锁 ; 为 LOCK_UN, 则 释放 一 个 锁 ( 注 10)。 


如 果 请 求 不 能 立即 得 到 满足 ， 系 统 调用 通常 阻塞 当前 进程 , 例如 ,如 果 进 程 请 求 一 个 独 
占 锁 而 其 他 某 个 进程 已 获得 了 该 锁 , 不 过 , 如 果 LOCK_NB 标 记 与 LOCK_SH 或 LOCK_EX 
操作 进行 “或 “， 则 这 个 系统 调用 不 阻塞 换 句 话说 ,如 果 不 能 立即 获得 该 锁 ， 则 该 系 
统 调 用 就 返回 一 个 错误 码 。 


当 sys_flock() 服 务 例 程 被 调用 时 ， 则 执行 下 列 步 又 ; 


1. ”检查 fd 是 否 是 一 个 有 效 的 文件 描述 符 ， 如 果 不 是 ， 就 返回 一 个 错误 码 。 否 则 ， 获 
得 相应 文件 对 象 filp 的 地 址 。 
2. ”检查 进程 在 打开 文件 上 是 否 有 读 和 /或 写 权 限 ， 如 果 没 有 ， 就 返回 一 个 错误 码 。 


3， ”获得 一 个 新 的 file_lock 对 象 锁 并 用 适当 的 锁 操作 初始 化 它 : 根据 参数 cma 的 值 
设置 f1_type 字 段 , 把 f1_file 字 段 设 为 文件 对 象 filp 的 地 址 ，f1_flags 字 段 设 
为 FL_FLOCK，f1l_pid 字 段 设 为 current->tgid， 并 把 fl1_end 字 7 段 设 为 -1, 这 
表示 对 整个 文件 (而 不 是 文件 的 一 部 分 ) 加 销 的 事实 。 
注 10:; 。 实际 上 ，flock{) 系 统 调用 还 可 以 通过 指定 LOCK_MAND 命令 建立 共享 模式 强制 销 。 不 
过 ， 对 此 我 们 不 做 更 多 的 讨论 。 
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如 果 和 参数 cma 不 包含 LOCK_NB 位 ， 则 把 FL_SLEEP 标志 加 入 fl1_flags 字段 。 


如 果 文 件 具 有 一 个 flock 文件 操作 ， 则 调用 它 ， 传 递 给 它 的 参数 为 文件 对 象 指 针 
filp、 一 个 标志 (F_SETLKW 或 F_SETLK， 有 取决 于 LOCK_NB 位 的 值 ) 以 及 新 的 
file_lock 对 象 销 和 的 地 址 。 

否则 , 如 果 没 有 定义 flock 文 件 操作 (通常 情况 下 ) , 则 调用 flock_lock_file wait1() 
试图 执行 请 求 的 锁 操作 。 传 递 给 它 的 两 个 参数 为 ， 文 件 对 象 指针 filp 和 在 第 3 步 创 
建 的 新 的 file_lock 对 象 的 地 址 lock。 

如 果 上 一 步 中 还 设 有 把 file_lock 描 述 符 插 人 活动 或 阻塞 链表 中 ， 则 释放 它 。 
返回 0 (成 功 )。 


flock_lock_file_waitc() 图 数 执行 下 列 循环 操作 


1 . 


调用 flock_lock_filel()， 传 递 给 它 的 参数 为 文件 对 象 指 针 fi1p 和 新 的 
file_lock 对象 锁 的 地 址 lock。 这 个 函数 依次 执行 下 列 操作 ， 


a. 搜索 filp->f_dentry->d_inode->i_flock 指 向 的 链表 ,如 果 在 同一 文件 对 象 
中 找到 FL_FLOCK 锁 ， 则 检查 它 的 类 型 (LOCK_SH 或 LOCK_EX): 如 果 该 锁 
的 类 型 与 新 锁 相同 ， 则 返回 0 (什么 也 没有 做 )。 否则 ， 从 索引 布点 锁链 表 和 全 
局 文件 锁链 表 中 删除 这 个 file_lock 元 素 , 唤醒 f1-block 链 表 中 在 该 锁 的 等 
待 队 列 上 睡 卢 的 所 有 进程 ， 并 释放 file_lock 结构 。 

b. 如 果 进 程 正在 执行 开销 (LOCK_UN), 则 什么 事情 都 不 需要 做 ; 该 销 已 不 存在 或 
已 被 释放 ， 因 此 返回 0，。 

c. 如 果 已 经 找到 同一 个 文件 对 象 的 FL_FLOCK 锁 一 一 表明 进程 想 把 一 个 已 经 拥有 
的 读 锁 改变 为 一 个 写 销 (反之 亦 然 ), 那么 调用 cond_resched() 给 予 其 他 更 高 
优先 级 进程 (特别 是 先前 在 原文 件 锁 上 阻塞 的 任何 进程 ) 一 个 运行 的 机 会 。 


d， 再 次 搜索 索引 节点 锁链 表 以 验证 现 有 的 FL_PFLOCK 锁 并 不 与 所 请 求 的 锁 冲 突 。 
在 索引 节点 链表 中 , 肯定 没有 FL_FLOCK 写 锁 , 此 外 , 如 果 进 程 正 在 请 求 一 个 
写 销 ， 那 么 根本 就 没有 FL_FLOCK 销 ，。 


e. 如 果 不 存 在 冲突 锁 , 则 把 新 的 fijle_lock 结 构 持 人 索引 市 点 锁链 表 和 全 局 文件 
锁链 表 中 ， 然 后 返回 0 (成 功 )。 


f. 发 现 一 个 训 究 锁 如 果 f1_flags 字段 中 FL_SLEEP 对 应 的 标志 位 置 位 ， 则 把 
新 锁 (waiter 销 ) 插入 到 blocker 锁 循 环 链表 和 全 局 阻塞 链表 中 。 


g. 返回 一 个 错误 码 -EAGAIN。 
检查 flock_lock_file() 的 返回 码 ， 
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3. 如 果 返 回 码 为 0 (没有 冲突 迹象 )， 则 返回 0 (成 功 )。 

b， 不 相 容 的 情况 。 如 果 £1_f1lags 字段 中 的 FL_SLEEP 标志 被 清除 ， 就 释放 
file_lock 锁 描 述 符 ， 并 返回 一 个 错误 码 -EAGAIN。 

c， 否则 , 不 相 容 但 进程 能 够 睡眠 的 情况 : 调用 wait_event_interruptible(}) 把 
当前 进程 插 人 到 lock->fEl_wa 让 等 待 队列 中 并 挂 起 它 。 当 进程 被 唤醒 时 (正好 
在 释放 blocker 锁 后 )， 跳 转 到 第 1 步 再 次 执行 这 个 操作 。 


FL_POSIX 钢 


FL_POSIX 锁 总 是 与 一 个 进程 和 一 个 索引 节点 相关 联 。 当 进程 死亡 或 一 个 文件 描述 符 被 
关闭 时 (即使 该 进程 对 同一 文件 打开 了 两 次 或 复制 了 一 个 文件 描述 符 )， 这 种 锁 会 被 自 
动 地 释放 。 此 外 ，FL_POSIX 锁 绝 不 会 被 子 进程 通过 fork() 继 承 。 


当 使 用 fcnt11() 系 统 调用 对 文件 加 锁 时 , 该 系统 调用 作用 于 三 个 参数 : 要 加 锁 文 件 的 文 
件 描述 符 Ea.、 指向 锁 操 作 的 参数 cmd, 以 及 指向 存放 在 用 户 态 进程 地 址 空间 中 的 Elock 
数据 结构 ( 注 11) 的 指针 £1。f1lock 结构 中 的 字段 如 表 12-20 所 示 。 


表 12-20: flock 数 据 结构 中 的 字段 


类 型 ”字段 说 明 
short 1 type F_RDLOCK (请 求 一 个 共享 销 )，F_WRLOCK (请 求 一 个 独占 锁 )， 
F_UNLOCK (释放 锁 ) 


short 1 whence SEEK_SET (从 文件 的 开始 处 )，SEEK_CURRENT (从 当前 文件 指针 
处 )，SEEK_END {从 文件 末尾 处 ) 

off t 1 start 与 ]_whence 的 值 相 关 的 加 锁 区 域 的 初始 偏 移 量 

off t 1 len 可 锁 区 域 的 长 讼 (0 表示 该 区 域 包含 所 有 可 能 写 过 当前 文件 末尾 的 区 
域 ) 

pid 1pid 拥有 者 的 PID 


Et 


sys_fcnt1() 服 务 例 程 执行 的 操作 取决 于 在 cmd 参数 中 所 设置 的 标志 值 : 


F_GETDK 
确定 由 flock 结 构 描述 的 锁 是 否 与 另 一 个 进程 已 获得 的 某 个 FL_POSIX 锁 互相 冲 
突 。 在 冲突 的 情况 下 ， 用 现 有 锁 的 有 关 信 息 重 写 flock 结构 。 
注 11: Linux 还 定义 了 flock64 结 构 , 它 的 offset 和 1length 字 段 使 用 64 位 长 整数 .下 面 我 们 
主要 讨论 flock 数据 结构 ， 这 些 内 容 对 flock64 同样 有 效 。. 
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F_SETLK 
设置 由 flock 结 构 描 述 的 锁 。 如 果 不 能 获得 该 锁 , 则 这 个 系统 调用 返回 一 个 错误 码 。 
F_SETLKW 
设置 由 flock 结构 描述 的 锁 。 如 果 不 能 获得 该 锁 ， 则 这 个 系统 调用 阻塞 ， 也 就 是 
说 ， 调 用 进程 进入 睡眠 状态 直到 该 锁 可 用 时 为 止 。 
F_GETLK64, F_SETLK64, F_SETLKW64 
与 前 面 描述 的 几 个 标志 相同 ， 但 是 使 用 的 是 flock64 结构 而 不 是 flock 结构 。 


sys_fcnt1() 服 务 例 程 首先 获取 与 参数 fd 对 应 的 文件 对 象 ， 然 后 调用 fcnt1_getlk() 
或 fcntl_setlk'() 冰 数 (这 取决 于 传递 的 参数 : F_GETLK 表示 前 一 个 阔 数 , F_SETLK 
或 F_SETLKW 表示 后 一 个 函数 )。 我 们 仅仅 考虑 第 二 种 情况 。 


fcnt1_setlk() 函 数 作 用 于 三 个 参数 ; 指向 文件 对 象 的 指针 filp、cmd 命 令 (F_SETLK 
或 F_SETLKW)， 以 及 指向 flock 数 据 结构 的 指针 。 该 函数 执行 下 列 操作 ; 


1. 读 取 局 部 变量 中 的 参数 £1 所 指向 的 flock 结构 。 

2， 检查 这 个 锁 是 否 应 该 是 一 个 强制 锁 , 且 文 件 是 否 有 一 个 共享 内 存 上 映射 (参见 第 十 六 
章 的 “内 存 映射 “一 节 )。 在 肯定 的 情况 下 ， 该 函数 拒绝 创建 锁 并 返回 -EAGAIN 出 
错 码 ， 说 明文 件 正 在 被 另 一 个 进程 访问 。 

3. ”根据 用 户 flock 结 构 的 内 容 和 存放 在 文件 索引 节点 中 的 文件 大 小 ,初始 化 一 个 新 的 
fjile lock 结构 。 


4， 如果 命 令 cmd 为 FE_SETLKW， 则 读 国 数 把 file_lock 结构 的 f1_flags 字段 设 为 
FL_SLEEP 标 志 对 应 的 位 置 位 。 

5. 如 果 flock 结构 中 的 1_type 字段 为 F_RDLCK， 则 检查 是 否 允 许 进程 从 文件 读 取 ， 
类 似 地 ， 如 果 1_type 为 F_WRLCK， 则 检查 是 否 允 许 进程 写 人 人 文件。 如 果 都 不 是 ， 
则 返回 一 个 出 错 码 。 


6. ”调用 文件 操作 的 lock 方法 (如 果 已 定义 ) 。 对 于 磁盘 文件 系统 , 通常 不 定义 该 方法 。 


7.， 调用 __posix_lock_filie() 国 数 , 传递 给 它 的 参数 为 文件 的 索引 节点 对 象 地 址 以 
及 file_lock 对 象 地 址 。 该 函数 依次 执行 下 列 操作 : 


a， 对 于 索引 节点 的 锁链 表 中 的 每 个 FL_POSIX 销 ,调用 posix_locks_conflict 1()。 
该 函数 检查 这 个 销 是 否 与 所 请 求 的 锁 互 相 冲 突 。 从 本 质 上 说 ,在 索引 节点 的 链表 
中 ， 必 定 没 有 用 于 同一 区 的 FL_POSIX 写 锁 ， 并 且 ， 如 果 进 程 正 在 请 求 一 个 写 
锁 ， 那 么 同一 个 区 字段 也 可 能 根本 没有 FL_POSIX 锁 。 但 是 ， 同 一 个 进程 所 拥 
有 的 销 从 不 会 冲突 ， 这 就 允许 进程 改变 它 已 经 拥有 的 锁 的 特性 。 
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b. 


d. 


= 


如 果 找 到 一 个 冲突 锁 ， 则 检查 是 否 以 FE_SETLKW 标 志 调 用 fcnt1()。 如 果 是 ， 
当前 进程 应 当 被 挂 起 : 在 这 种 情况 下 ,调用 posix_locks_dqeadlock() 来 检查 
在 等 待 FL_POSIKX 锁 的 进程 之 间 设 有 产生 死 锁 条 件 ， 然 后 把 新 锁 (waiter 锁 ) 
插入 到 冲突 销 (blocker 锁 ) blocker 链 表 和 阻塞 链表 中 , 最 后 返回 一 个 出 错 码 。 
否则 ， 如 果 以 F_SETLK 标 志 调 用 fcnt1()， 则 返回 一 个 出 错 码 。 


只 要 索引 节点 的 锁链 表 中 不 包含 冲突 的 锁 , 就 检查 把 文件 区 重 又 起 来 的 当前 进 
程 的 所 有 FL_POSIX 锁 ， 当 前 进程 想 按 需 要 对 文件 区 中 相 邻 的 区 字段 进行 锁 
定 、 组 合 及 拆 分 。 例 如 ， 如 果 进 程 为 某 个 文件 区 请 求 一 个 写 锁 ， 而 这 个 文件 区 
落 在 一 个 较 宽 的 读 锁 区 字段 内 ， 那么 ,以 前 的 读 锁 就 会 被 拆 分 为 两 部 分 ,这 两 
部 分 覆盖 韭 重合 区 域 , 而 中 间 区 域 由 新 的 写 锁 进行 保护 。 在 重 又 的 情况 下 ,新 
锁 总 是 代替 人 旧 锁 。 


把 新 的 file_lock 结 构 插 入 到 全 局 锁链 表 和 索引 节点 链表 中 。 
返回 值 0 【成 功 )。 


8， 检查 _posix_lock filef) 的 返回 码 ， 


各 ， 


b. 


如 果 返 回 码 为 0 (没有 冲突 迹象 ) ， 则 返回 0 (成 功 )。 

不 相 容 的 情况 。 如 果 £1_flags 字段 的 FL_SLEEP 标志 被 清除 ， 就 释放 新 的 
file_lock 描述 符 ， 并 返回 一 个 错误 码 -EAGAIN。 

否则 , 如 果 不 相 容 但 进程 能 够 睡眠 时 , 调用 wait_event_interruptible{}) 把 
当前 进程 揪 和 人 到 loeck->fl_wait 等 待 队 列 中 并 挂 起 它 。 当 进程 被 唤 柄 时 (正好 
在 释放 blocker 锁 后 ) ， 跳 转 到 第 7 步 再 次 执行 这 个 操作 。 


第 十 三 章 


I/O 体系 结构 和 设备 驱动 程序 





上 一 章 的 虚拟 文件 系统 在 某 种 意义 上 依靠 低层 函数 以 进行 适合 于 每 个 设备 的 读 . 写 或 其 
他 操作 。 前 一 章 还 包括 对 不 同文 件 系统 如 何 处 理 这 些 操作 的 简单 讨论 。 本章 我 们 将 看 一 
下 内 核 如 何在 实际 的 设备 上 调用 这 些 操作 ，。 


在 “1/O 体 系 结构 ”一 节 , 我 们 简单 考察 一 下 80x86 的 W/O 体系 结构 。 在 “设备 蝶 动 程序 
模型 ”一 节 ， 我 们 介绍 Linux 设备 驱动 程序 模型 。 接 下 来 ,在 “设备 文件 ”一 市 ， 我 们 
说 明 VFS 如 何 把 叫做 “设备 文件 ”的 特殊 文件 与 每 个 不 同 的 硬件 设备 相对 应 ， 从 而 使 应 
用 程序 可 以 用 相同 的 方式 使 用 所 有 的 设备 。 在 “设备 哎 动 程序 ”一 节 ， 我 们 介绍 一 些 芝 
用 的 设备 驱动 程序 特性 。 最 后 ,在 “字符 设备 驱动 程序 ”一 节 ， 我 们 说 明 Linux 字符 设 
备 驱 动 程序 的 整体 组 织 结构 。 我 们 将 在 下 一 章 中 讨论 块 设备 驱动 程序 。 


有 兴趣 自己 开发 设备 驱动 程序 的 读者 最 好 参考 由 O'Reilly 出 版 ，Jonathan Corbet 
Alessandro Rubini 和 Greg Kroah-Hartman 编写 的 《Linux Device Drivers》( 第 三 版 ) 


7 
从 。 


I/O 体 3 结构 


为 了 确保 计算 机 能 够 正常 工作 ， 必 须 提供 数据 通路 ， 让 信息 在 连接 到 个 人 计算 机 的 
CPU、RAM 和 1/O 设 备 之 间 流 动 。 这些 数据 通路 总 称 为 总 线 , 担当 计算 机 内 部 主 通信 通 
遵 的 作用 。 


所 有 计算 机 都 拥有 一 条 系统 总 线 , 它 连接 大 部 分 内 部 硬件 设备 。 一 种 典型 的 系统 总 线 是 
PCI (Peripheral Componen! Interconnec!) 总 线 。 目 前 使 用 其 他 类 型 的 总 线 也 很 多 ， 例 
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如 ISA、EISA、MCA、SCSI 和 USB。 典 型 的 情况 是 ， 一 台 计 算 机 包括 几 种 不 同类 型 的 
总 线 ， 它 们 通过 被 称 作 桥 的 醒 件 设备 连接 在 一 起 。 两 条 高 速 总 线 用 于 在 内 存心 片上 
来 回 传送 数据 : 前 端 总 线 将 CPU 连接 到 RAM 控 制 器 上 , 而 后 端 总 线 将 CPU 直接 连接 到 
外 部 硬件 的 高 速 组 存 上 。 主 机 上 的 桥 将 系统 总 线 和 前 闹 总 线 连 接 在 一 起 。 


任何 IO 设备 有 且 仅 能 连接 一 条 总 线 。 总 线 的 类 型 影响 1O 设备 的 内 部 设计 ， 也 影 啊 着 
内 核 如 何 处 理 设 备 。 本 市 我 们 将 讨论 所 有 PC 体系 结构 共有 的 功能 性 特点 ， 而 不 具体 介 
绍 特定 总 线 类 型 的 技术 细 市 。 


CPU 和 WO 设备 之 加 的 数据 通路 通 第 称 为 WO 总 线 。80x86 微 处 理 强 使 用 16 位 的 地 址 总 
线 对 IO 设备 进行 寻 址 ， 使 用 8 位 、16 位 或 32 位 的 数据 总 线 传输 数据 。 每 个 IO 设备 依 
次 连接 到 1O 总 线 上 ,这 种 连接 使 用 了 包含 3 个 元 素 的 硬件 组 织 层 次 : MO 端口、 接口 和 
设备 控制 器 。 图 13-1 显示 了 IO 体系 结构 的 这 些 成 分 。 





CPYU 


0 设 入 














图 13-1，PC 的 110 体系 结构 


IO 端口 

每 个 连接 到 IO 总 线 上 的 设备 都 有 自己 购 IO 地 址 集 ， 通 常 称 为 IO 端口 (LO port)。 在 
IBM PC 体系 结构 中 ，LO 地 址 空间 一 共 提 供 了 65536 个 8 位 的 IO 端口 。 可 以 把 两 个 连 
续 的 8 位 问 口 看 成 一 个 16 位 端口 , 但 是 这 必须 从 偶数 地 址 开始 。 同 理 , 也 可 以 把 两 个 连 
续 的 16 位 端口 看 成 一 个 32 位 端口 ， 但 是 这 必须 是 从 4 的 整数 倍 地 址 开始 。 有 四 条 专用 
的 汇编 语言 指令 可 以 允许 CPU 对 LO 端口 进行 读 写 ， 它 们 是 in、ins、out 和 outs。 
在 执行 其 中 的 一 条 指令 上 时，CPU 使 用 地 址 总 线 选 择 所 请 求 的 VO 端口 ,使 用 数据 总 线 在 
CPU 寄存 器 和 端口 之 间 传 送 数 据 。 
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MO 端口 还 可 以 被 映射 到 物理 地 址 空间 。 因 此 , 处 理 避 和 IO 设备 之 同 的 通信 就 可 以 使 用 
对 内 存 直接 进行 操作 的 汇编 语言 指令 (例如 ，mov、ang、or 等 等 )。 现 代 的 硬件 设备 
更 倾 同 于 映射 的 WHO， 因为 这 样 处 理 的 速度 较 快 ， 并 可 以 和 DMA 结合 起 来 。 


系统 设计 者 的 主要 目的 是 对 LO 编程 提供 统一 的 方法 , 但 又 不 牺牲 性 能 。 为 了 达到 这 个 
目的 ， 每 个 设备 的 WO 端口 都 被 组 织 成 如 图 13-2 所 示 的 一 组 专用 寄存 姓 。CPU 把 要 发 
送 给 设备 的 命令 写 入 设备 控制 寄存 器 (device control register)， 并 从 设备 状态 寄存 器 
(device status register) 中 读 出 表示 设备 内 部 状态 的 值 。CPU 还 可 以 通过 读 取 设备 输入 
寄存 器 《device input register) 的 内 容 从 设备 取得 数据 ,也 可 以 通过 回 设 备 输出 寄存 器 
(device output register) 中 写 入 字 节 而 把 数据 输出 到 设备 。 





控制 寄存 名 


， 4 

CPU 设备 的 
并 

| 输出 寄存 器 用 











图 13-2: 专用 IO 端口 


为 了 降低 成 本 ,通常 把 同一 VO 端口 用 于 不 同 目 的 。 例 如 ， 某 些 位 摘 述 设备 的 状态 ， 而 
其 他 位 指定 同 设 备 发 出 的 命令 。 同 理 , 也 可 以 把 同一 WO 端口 用 作 输 入 寄存 副 或 输出 寄 
存 句 。 


访 回 1O 端口 
| out 、ins 和 outcs 访 编 话 言 指令 都 可 以 访问 I/O 〇 满口 。 内 核 中 包含 了 以 下 辅助 国 数 
简化 这 种 访问 ， 


Er 过 于 渤 ) 
分 别 从 VO 端口 读 取 1、2 或 4 个 连续 字 节 。 后 绥 “b”、“w”、“1” 分 别 代表 一 个 字 
位 以 及 = 个 居 束 型 (32 人 位); 
Bh I NL D1() 
分 别 从 WO 端口 读 取 1、2 或 4 个 连续 字 节 ， 然 后 执行 一 条 “ 哑 元 (dummy ， 即 空 
指令 ) ”指令 使 CPU 暂停 。 
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SUEDL), QUEwt Gu 
分 别 向 一 个 VO 端口 写 人 1、2 或 4 个 连续 字 节 。 

OUtD Bt Outw Bp(), ut BB() 
分 别 向 一 个 WO 端口 写 人 1、2 或 4 个 连续 字 市 , 然后 执行 一 条 “ 唾 元 ”指令 使 CPU 
暂停 。 

insb(), insw(), insl() 
分 别 从 WO 端口 读 取 以 1、2 或 4 个 字 贡 为 一 组 的 连续 字 节 序列 。 字 节 序 列 的 长 度 由 
该 函数 的 参数 给 出 。 


Outsb(), outsw(), outsl{() 


分 别 向 IO 端口 写 人 以 1、2 或 4 个 字 节 为 一 组 的 连续 字 节 序列 。 


虽然 访问 WO 端口 非常 简单 , 但 是 检测 哪些 IO 端口 已 经 分 配给 IO 设备 可 能 就 不 这 么 简 
单 了 ， 对 基于 ISA 总 线 的 系统 来 说 更 是 如 此 。 通 常 ，LO 设备 驱动 程序 为 了 探测 硬件 设 
备 ， 需 要 盲目 地 向 某 一 MO 端口 号 人 数据 ， 但 是 ， 如 果 其 他 硬件 设备 已 经 使 用 了 这 个 端 
口 ， 那 么 系统 就 会 崩溃 。 为 了 防止 这 种 情况 的 发 生 ， 内 核 必 须 使 用 “资源 ”来 记录 分 配 
给 每 个 硬件 设备 的 IO 端口 。 


资源 (resource) 表示 某 个 实体 的 一 部 分 ， 这 部 分 被 互 斥 地 分 配给 设备 驱动 程序 。 在 我 
们 的 情况 中 ， 一 个 资源 表示 1/0 端口 地 址 的 一 个 范围 。 每 个 资源 对 应 的 信息 存放 在 
resource 数 据 结构 中 ， 其 字段 如 表 13-1 所 示 。 所 有 的 同 种 资源 都 插入 到 一 个 树 型 数据 
结构 中 ,例如 , 表示 IO 端口 地 址 范围 的 所 有 资源 都 包含 在 一 个 根 节点 为 ioport_resource 
的 树 中 。 


表 13-1: resource 数 据 结 构 中 的 字段 


类 型 字段 说 阴 

const char * name 资源 拥有 者 的 拉 述 

unsigned long start 资源 范围 的 开始 

unsigned long end 资源 范围 的 结束 

unsigned long flags 各 种 标志 

struct Tesource * parent 指向 资源 树 中 父亲 的 指针 
struct resource * sibling 指 问 资源 树 中 兄弟 的 指针 
struct resource . child 指向 资源 树 中 第 一 个 孩子 的 指针 





季 扩 的 核子 被 收集 在 一 个 链表 中 ,其 第 一 个 元 素 由 child 指 向。sibling 字 段 指 癌 链表 
Rs 
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为 什么 使 用 树 ? 例 如， 考虑 一 下 IDE 硬盘 接口 所 使 用 的 IO 端口 地 址 一 一 比如 说 从 
0xf000 到 0xf00f。 然 后 ，start 字段 为 0xf000 有 end 字 段 为 0xf00f 的 这 样 一 个 资源 
包含 在 树 中 , 控制 器 的 常规 名 字 存 放 在 name 字 段 中 。 但 是 , IDE 设 备 驱 动 程序 需要 记 住 
另外 的 信息 ， 也 就 是 IDE 链 (IDE chain) 的 主 盘 (master disk) 使 用 0xf000 一 0xf007 
的 子 范 围 ， 从 盘 (slave disk) 使 用 0xft008 一 0xft00f 的 子 范围 。 为 了 做 到 这 点 ， 设 备 驱 
动 程序 把 两 个 子 范围 对 应 的 孩子 插入 到 0xf000~0xf0of 的 整个 范围 对 应 的 资源 下 。 一 
般 来 说 ， 树 中 的 每 个 节点 肯定 相当 于 父 节 点 对 应 范围 的 一 个 子 范 围 。1/O 端口 资源 树 
(ioport_resource) 的 根 节 点 跨越 了 整个 IO 地址 空间 (从 端口 0 一 6S$$3S ) 。 


任何 设备 碟 动 程序 都 可 以 使 用 下 面 三 个 国 数 ,传递 给 它们 的 参数 为 资源 树 的 根 节 氮 和 要 
插入 的 新 资源 数据 结构 的 地 址 : 


regquest_resource{) 
把 一 个 给 定 范 围 分 配给 一 个 MO 设备 。 

allocate_resource ( ) 
在 资源 树 中 寻找 一 个 给 定 大 小 和 排列 方式 的 可 用 范围 : 若 存 在 , 就 将 这 个 范围 分 配 
给 一 个 VO 设备 (主要 由 PCI 设 备 驱 动 程序 使 用 ,这 种 驱动 程序 可 以 配置 成 使 用 任 
意 的 端口 号 和 主板 上 的 内 存 地 址 对 其 进行 配置 ) 。 


release resource ( ) 


释放 以 前 分 配给 LO 设备 的 给 定 范围 。 


内 核 也 为 以 上 应 用 于 LO 端口 的 国 数 定 义 了 一 些 快捷 国 数 : reguest_region() 分 配 IO 
闪 口 的 给 定 范 围 ，release_region() 释 放 以 前 分 配给 IO 端口 的 范围 。 当 前 分 配给 IO 
设备 的 所 有 LO 地 址 的 树 都 可 以 从 /proc/ioports 文件 中 获得 。 


MO 接口 


IO 接口 (1O interface) 是 处 于 一 组 IO 端口 和 对 应 的 设备 控制 器 之 间 的 一 种 硬件 电路 。 
它 起 翻译 器 的 作用 ,， 即 把 IO 端口 中 的 值 转换 成 设备 所 需要 的 命令 和 数据 。 在 相反 的 方 
加 上 ， 它 检测 设备 状态 的 变化 ， 并 对 起 状态 寄存 器 作用 的 IO 端口 进行 相应 的 更 新 。 还 
可 以 通过 一 条 IRQ 线 把 这 种 电路 连接 到 可 编程 中 断 控 制 器 上 , 以 使 它 代表 相应 的 设备 发 
出 中 断 请 求 。 


有 两 种 类 型 的 接口 : 


专用 1O 接口 
专门 用 于 一 个 特定 的 硬件 设备 。 在 一 些 情况 下 , 设备 控制 器 与 这 种 VO 接口 处 于 同 
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一 块 卡 中 ( 注 1)。 连 接 到 专用 WO 接口 上 的 设备 可 以 是 内 部 设备 (位 于 PC 机箱 内 
部 的 设备 )， 也 可 以 是 外 部 设备 (位 于 PC 机 箱 外 部 的 设备 )。 

通用 7O 接口 
用 来 连接 多 个 不 同 的 硬件 设备 。 连 接 到 通用 IO 接口 上 的 设备 通常 都 是 外 部 设备 。 


专用 I/O 接口 


专用 IO 接口 的 种 类 很 多 ， 因 此 目前 已 装 在 PC 上 设备 的 种 类 也 很 多 ， 我 们 无 法 一 一 列 
出 ， 在 此 只 列 出 一 些 最 通用 的 接口 : 


炙 妈 搂 口 
连接 到 一 个 键盘 控制 器 上 , 这 个 控制 器 包含 一 个 专用 微 处 理 器 。 这 个 微 处 理 器 对 按 
下 的 组 合 键 进行 译 码 ， 产 生 一 个 中 断 并 把 相应 的 键盘 扫描 码 写 入 输入 寄存 器 。 
图 形 授 口 
和 图 形 卡 中 对 应 的 控制 器 封装 在 一 起 , 图 形 卡 有 自己 的 帧 缓冲 区 , 还 有 一 个 专用 处 
理 器 以 及 存放 在 只 读 存储 器 (ROM) 芯片 中 的 一 些 代 码 。 帧 缓冲 区 是 显卡 上 固化 
的 存储 器 ， 其 中 存放 的 是 当前 屏幕 内 容 的 图 形 描述 。 
语 姐 接 口 
由 一 条 电缆 连接 到 磁盘 控制 器 , 通常 磁盘 控制 器 与 磁盘 放 在 一 起 。 例如 , IDE 接 只 由 
一 条 40 线 的 带 形 电缆 连 接 到 智能 磁盘 控制 器 上 ,在 磁盘 本 身 就 可 以 找到 这 个 控制 器 。 
基线 忌 奈 蕉 口 
由 一 条 电费 把 接口 和 控制 器 连接 在 一 起 ， 控 制 器 就 包含 在 鼠标 中 。 
有 网络 接口 
与 网 卡 中 的 相应 控制 器 封装 在 一 起 , 用 以 接收 或 发 送 网 络 报 文 。 虽 然 广泛 采用 的 网 
络 标准 很 多 ,但 还 是 以 太 网 (IEEE 802.3) 最 为 通用 。 


通用 VC 接口 
现代 PC 都 包含 连接 很 多 外 部 设备 的 几 个 通用 LO 接口。 最 常用 的 接口 有 : 
# 口 


传统 上 用 于 连接 打印 机 ， 它 还 可 以 用 来 连接 可 移动 磁盘 、 扫 描 仪 、 备 份 设备 、 其 他 
计算 机 等 等 。 数 据 的 传送 以 每 次 1 字 节 (8 位 ) 为 单位 进行 。 


注 1: 每 块 卡 都 要 插入 PC 的 一 个 可 用 空闲 总 线 持 楼 中 。 如 果 一 块 卡通 过 一 条 外 部 电缆 连接 到 一 
个 外 部 设备 上 ， 那 么 在 PC 后 面 的 面板 中 就 有 一 个 对 应 的 连接 器 。 
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与 并 口 类 似 , 但 数据 的 传送 是 逐 位 进行 的 。 串口 包括 一 个 通用 异步 收发 器 (UART) 
世 片 , 它 可 以 把 要 发 送 的 字 节 信息 拆 分 成 位 序列 , 也 可 以 把 接收 到 的 位 流 重新 组 装 
成 字 节 信息 。 由 于 串口 本 质 上 速度 低 于 并 口 , 因此 主要 用 于 连接 那些 不 需要 高 速 操 
作 的 外 部 设备 ， 如 调制 解 调 器 、 鼠 标 以 及 打印 机 。 
PCMCIA 接口 , 

大 多 数 便携 式 计算 机 都 包含 这 种 接口 ,在 不 重新 启动 系统 的 情况 下 , 这 种 形状 类 似 
于 信用 卡 的 外 部 设备 可 以 被 插入 插 模 或 从 插 模 中 拔 走 。 最 常用 的 PCMCIA 设备 是 
硬盘 、 调 制 解 调 器 、 网 卡 和 扩展 RAM。 


SCSI (小 型 计算 机 夭 统 楼 日 ) 接 蝇 
是 把 PC 主 总 线 连接 到 次 总 线 ( 称 为 SCSI 总 线 ) 的 电路 。SCSI-2 总 线 允 许 一 共 8 
个 PC 和 外 部 设备 (硬盘 、 扫 描 仪 、CR-ROM 刻录 机 等 等 ) 连接 在 一 起 。 如 果 有 附 
加 接口 ， 宽 带 SCSI-2 和 新 的 SCSI-3 接口 可 以 允许 你 连接 多 达 16 个 以 上 的 设备 。 
SCSI 标准 是 通过 SCSI 总 线 连接 设备 的 通信 协议 。 

通用 中 行 总 线 (USB) 
高 速 运转 的 通用 1/O 接 口 , 可 用 于 连接 外 部 设备 , 代替 传统 的 并 口 、 串 口 以 及 SCSI 接 口 。 


设备 探 制 器 
复杂 的 设备 可 能 需要 一 个 设备 控制 器 (device controller) 来 驱动 。 从 本 质 上 说 ， 控 制 
器 起 两 个 重要 作用 ， 


。 “对 从 LO 接口 接收 到 的 高 级 命令 进行 解释 , 并 通过 向 设备 发 送 适 当 的 电信 和 号 序列 强 
制 设备 执行 特定 的 操作 。 

。 ”对 从 设备 接收 到 的 电信 号 进行 转换 和 适当 地 解释 ,并 修改 (通过 1O 接 口 ) 状态 寄 
存 器 的 值 。 


典型 的 设备 控制 器 是 磁盘 控制 器 ， 它 从 微 处 理 器 (通过 WO 接口 ) 接收 诸如 “ 写 这 个 数 
据 块 ”之 类 的 高 级 命令 ,并 将 其 转换 成 诸如 “把 磁头 定位 在 正确 的 磁 间 上 ”和 “把 数据 
写 和 人 这 个 磁道 ”之 类 的 低级 磁盘 操作 。 现 代 的 磁盘 控制 器 相当 复杂 ,因为 它们 可 以 把 磁 
盘 数 据 快速 保存 到 内 存 的 高 速 缓 存 中 ,还 可 以 根据 实际 磁盘 的 几何 结构 重新 安排 CPU 的 
高 级 请 求 ， 使 其 最 优化 。 


比较 简单 的 设备 没有 设备 控制 器 ， 可 编程 中 断 控制 器 (参见 第 四 章 中 的 “中 断 和 异常 ” 
一 节 ) 和 可 编程 间隔 定时 器 〈 参 见 第 六 章 中 的 “可 编程 间隔 定时 器 (PIT) 一 节 ) ”就 是 这 
样 的 设备 。 
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很 多 硬件 设备 都 有 自己 的 存储 器 ,通常 称 之 为 IO 共享 存储 器 。 例 如 ， 所 有 比较 新 的 图 
形 卡 在 帧 缓冲 区 中 都 有 几 MB 的 RAM , 用 它 来 存放 要 在 屏幕 上 显示 的 屏幕 映像 。 我 们 将 
在 本 章 的 “访问 MO 共享 存储 器 ”一 节 中 讨论 VO 共享 存储 器 。 


设备 驱动 程序 模型 


Linux 内 核 的 早期 版 本 为 设备 驱动 程序 的 开发 者 提供 微不足道 的 基本 功能 : 分 配 动态 内 
存 , 保留 VO 地 址 范围 或 中 断 请 求 IRQ)， 激 活 一 个 中 断 服务 例 程 来 响应 设备 的 中 断 。 
事实 上 ,在 更 老 的 硬件 设备 上 编程 棘手 而 困难 重重 , 还 有 即使 两 种 不 同 的 硬件 设备 连 在 
同一 条 总 线 上 , 但 二 者 也 很 少 有 共同 点 。 因 此 ,试图 为 这 种 硬件 设备 的 驱动 程序 开发 者 
提供 一 种 统一 的 模型 是 难以 做 到 的 。 


现在 的 情形 大 不 一 样 。 诸 如 PCI 这 样 的 总 线 类 型 对 硬件 设备 的 内 部 设计 提出 了 强烈 的 要 
求 ， 因此 , 新 的 硬件 设备 即使 类 型 不 同 但 也 有 相似 的 功能 。 对 这 种 设备 的 驱动 程序 应 当 
特别 关注 : 


。 ”电源 管理 (控制 设备 电源 线 上 不 同 的 电压 级 别 ) 
。 ” 即 插 即 用 (配置 设备 时 透明 的 资源 分 配 ) 
。 ” 热 插 拔 (系统 运行 时 支持 设备 的 插入 和 移 走 ) 


系统 中 所 有 硬件 设备 由 内 核 全 权 负 责 电源 管理 。 例 如 , 在 以 电池 供电 的 计算 机 进入 “ 待 
机 ”状态 时 ， 内 核 应 立刻 强制 每 个 硬件 设备 (硬盘 、 显 卡 、 声 卡 、 网 卡 、 总 线 控制 器 等 
等 ) 处 于 低 功率 状态 。 因 此 ， 每 个 能 够 响应 “待机 ”状态 的 设备 驱动 程序 必须 包含 一 个 
回调 函数 ， 它 能 够 使 得 硬件 设备 处 于 低 功 率 状态 。 而 且 , 硬件 设备 必须 按 准 确 的 顺序 进 
和 人 “待机” 状态， 否则 一 - 些 设 备 可 能 会 处 于 错误 的 电源 状态 。 例 如 ， 内 核 必 须 首先 将 硬 
盘 置 于 “待机 ”状态 , 然后 才 是 它们 的 磁盘 控制 器 ， 因 为 若 按 照相 反 的 顺序 执行 ,磁盘 
控制 器 就 不 能 向 硬盘 发 送 命 令 。 


为 了 实现 这 些 操 作 ，Linux 2.6 提供 了 一 些 数据 结构 和 辅助 函数 ， 它 们 为 系统 中 所 有 的 
总 线 、 设备 以 及 设备 驱动 程序 提供 了 一 个 统一 的 视图 ; 这 个 框架 被 称 为 设备 驱动 程序 模 
2 


sysfs 文件 系统 

sysfs 文 件 系统 是 一 种 特殊 的 文件 系统 ,被 安装 于 /sys 目 录 下 的 /proc 文 件 系 统 相 似 。/proc 
文件 系统 是 首次 被 设计 成 允许 用 户 态 应 用 程序 访问 内 核 内 部 数据 结构 的 一 种 文件 系统 。 
Mys 太 文件 系统 本 质 上 与 proc 有 相同 的 目的 , 但 是 它 还 提供 关于 内 核 数 据 结 构 的 附加 信 
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息 ， 此 外 ， /sysfs 的 组 织 结构 比 /proc 更 有 条 理 。 或 许 ， 在 不 远 的 将 来 ，/proc 和 Lsysfs 将 
会 继续 共存 。 


sysfs 文 件 系统 的 目标 是 要 展现 设备 驱动 程序 模型 组 件 间 的 层次 关系 。 该 文件 系统 的 相应 
高 层 目 录 是 : 


block 
块 设备 ,它们 独立 于 所 连接 的 总 线 。 
devices 
所 有 被 内 核 识 别 的 硬件 设备 ， 依 照 连接 它们 的 总 线 对 其 进行 组 织 。 
bus 
系统 中 用 于 连接 设备 的 总 线 。 
drivers 
在 内 核 中 福 册 的 设备 驱动 程序 。 
class 
系统 中 设备 的 类 型 《声卡 、 网 卡 、 显 卡 等 等 )， 同一 类 可 能 包含 由 不 同 总 线 连 接 的 
设备 ， 于 是 由 不 同 的 驱动 程序 驱动 。 
power 
处 理 一 些 硬件 设备 电源 状态 的 文件 。 


firmware 


处 理 一 些 硬件 设备 的 固件 的 文件 。 


sys 庆 文件 系统 中 所 表示 的 设备 驱动 程序 模型 组 件 之 则 的 关系 就 像 目录 和 文件 之 间 符 号 链 
接 的 关系 一 样 。 例 如 ， 文 件 /sys/block/sda/device 可 以 是 一 个 符号 链接 ， 指 向 在 /sys/ 
devices/pci0000:00 {表示 连接 到 PCI 总 线 的 SCSI 控 制 器 ) 中 在 入 的 一 个 子 目录 。 此 外 ， 
文件 /sys/block/sda/device/block 是 到 目录 /sys/blockWsda 的 一 个 符号 链接 ， 这 表明 这 个 
PCI 设备 是 SCSI 磁盘 的 控制 器 。 


5ysfs 文件 系统 中 普通 文件 的 主要 作用 是 表示 驱动 程序 和 设备 的 属性 。 例 如 ， 位 于 上 生 了 录 / 
sys/block/hda 下 的 dev 文件 含有 第 一 个 IDE 链 主 磁 盘 的 主 设备 号 和 次 设备 号 。 


kobject 


设备 虹 动 程序 模型 的 核心 数据 结构 是 一 个 普通 的 数据 结构 ， 叫 做 kobject， 它 与 sysfs 文 
件 系统 自然 地 绑 定 在 一 起 : 每 个 kobject 对 应 于 sysfs 文件 系统 中 的 一 个 目录 。 
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kobject 被 嵌入 一 个 叫做 “容器 ”的 更 大 对 象 中 ， 容 器 描述 设备 驱动 程序 模型 中 的 组 件 
( 注 2)。 容 器 的 典型 例子 有 总 线 、 设 备 以 及 驱动 程序 的 描述 符 ; 例如 ， 第 一 个 IDE 磁盘 
的 第 一 个 分 区 描述 符 对 应 于 /sys/blockK/hda/hdal 目录 。 


将 一 个 kobject 嵌 入 容器 中 允许 内 核 : 


。 ”为 容器 保持 一 个 引用 计数 器 。 


。 ”维持 容器 的 层次 列表 或 组 (例如 ， 与 块 设 备 相 关 的 sysfs 目录 为 每 个 磁盘 分 区 包含 
一 个 不 同 的 子 目 录 )。 


。 ”为 容器 的 属性 提供 一 种 用 户 态 查 看 的 视图 。 


kobject、kset 和 subsystem 
每 个 kobject 由 kobject 数据 结构 描述 ， 其 各 字段 如 表 13-2 所 示 。 


表 13-2; kobject 数 据 结构 中 的 字段 


类 型 字段 ”说 明 

Char * k_name 指向 含有 容器 名 称 的 字符 上 串 

char 1] name 含有 容器 名 称 的 字符 串 ， 如 果 它 不 超过 20 个 字 节 
struct k_ref kref 容器 的 引用 计数 器 


struct list_head entry 用 于 kobject 所 插入 的 链表 的 指针 
struct kobject * parent 指向 父 kobject (如 果 存 在 的 话 ) 
struct kset * kset 指 同 包含 的 kkset 

struct KobJ_type * ktype 指 问 kobject 的 类 型 描述 符 


ktype 字段 指向 kobj_type 对 象 ， 该 对 象 描 述 了 kobject 的 “类 型 ”一 一 本 质 上 ， 它 描 
述 的 是 包括 kobject 的 容器 的 类 型 。kobj_type 数据 结构 包括 三 个 字段 :release 方 法 
( 当 kobject 被 释放 时 执行 )， 指 同 sysfs 操作 表 的 sysfs_ops 指针 以 及 sysfs 文件 系统 的 
缺 省 属性 链表 。 

kref 字段 是 一 个 k_ref 类 型 的 结构 ， 它 仅 包 括 一 个 refcount 字段 。 顾 名 思 义 ， 这 个 字段 
就 是 kobject 的 引用 计数 器 ,但 它 也 可 以 作为 kobject 容器 的 引用 计数 器 。kobject_get () 


汪 2: kobject 主 要 用 于 实现 设备 驱动 程序 模型 ,但 是 为 了 使 用 kobjeckt, 还 要 继续 努力 改变 其 
他 的 一 些 内 核 部 件 ， 如 模块 子 系 统 。 
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和 kobject_put () 函 数 分 别 用 于 增加 和 减少 引用 计数 器 的 值 ; 如 果 该 计数 器 的 值 等 于 0， 
就 会 释放 kobject 使 用 的 资源 ,并且 执行 kobject 的 类 型 描述 符 kobj_type 对 象 的 release 
方法 。 该 方法 用 于 释放 容器 本 身 , 通常 只 有 在 动态 地 分 配 kobject 容 器 时 才 定 义 该 方法 。 


通过 Kse! 数 据 结构 可 将 kobjects 组 织 成 一 棵 层次 树 。kset 是 同类 型 kobject 结 构 的 一 个 集 
合体 一 一 也 就 是 说 ， 相 关 的 kobject 包含 在 同类 型 的 容器 中 。kset 数据 结构 的 字段 如 
表 13-3 所 示 。 


表 13-3: kset 数 据 结构 中 的 字段 


类 型 字段 说 明 

struct subsystem * subsys 指向 subsystem 描述 符 

struct kobj type * ktype 指 同 kset 的 kobject 类 型 描述 符 

struct list_head list 包含 在 kset 中 的 kobject 链表 的 首部 

struct kobject kobj 伐 和 的 kobject 结 构 ( 见 下 文 ) 

struct kset_hotplug ops * hotplug_ops ”指向 用 于 处 理 kobject 结 构 的 过 滤 和 热 插 
拔 操作 的 回调 函数 表 


list 字段 表示 包含 在 kset 中 的 kobject 结构 的 双向 循环 链表 的 首部 。ktype 字 段 是 指向 
kset 中 的 kobj_type 描述 符 的 指针 ， 该 描述 符 被 kset 中 所 有 的 kobject 结构 共享 。 


kobj 字段 是 能 和 人 在 kset 数据 结构 中 的 kobject， 而 位 于 kset 中 的 kobject， 其 parent 字 
段 指 同 这 个 内 和 代 的 kobject 结 构 。 因 此 , 一 个 kset 就 是 kobject 集合 体 , 但 是 它 依 赖 于 层 
次 树 中 用 于 引用 计数 和 连接 的 更 高 县 kobject。 这 种 设计 编码 效率 很 高 , 并 可 获得 最 大 的 
灵活 性 。 例 如 ,分 别 用 于 增加 和 减少 kset 引用 计数 器 值 的 kset_get{() 函数 和 
kset_put () 函 数 ， 只 需 简 单 地 调用 内 岁 的 kobject 结构 中 的 kobject_get () 函数 和 
kobject_put () 泉 数 :， 因为 kset 的 引用 计数 器 只 不 过 是 内 艇 在 kset 中 的 类 型 为 kobject 
的 kobj 的 引用 计数 器 。 而且， 由 于 有 了 内 嵌 的 kobject 结 构 ，kset 数据 结构 可 以 侯 入 到 
“容器 ”对象 中 , 非常 类 似 于 嵌入 的 kobject 数 据 结 构 。 最 后 ,kset 可 以 作为 其 他 kset 的 
一 个 成 员 : 它 足 以 将 内 和 从 的 kobject 插入 到 更 高 层次 的 kset 中。 


还 存在 所 谓 subsystem 的 kset 集 合 。 一 个 subsystem 可 以 包括 不 同类 型 的 kset， 用 包含 两 
个 字段 的 subsystem 数 据 结构 来 描述 : 


kset 
内 峰 的 kset 结构 ， 用 于 存放 subsystem 中 的 kset。 


rwSsem 


读 写 信号 量 ， 保 护 递 归 地 包含 于 subsystem 中 的 所 有 kset 和 kobject。 
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subsystem 数据 结构 甚至 也 可 以 能 入 到 一 个 更 大 的 “ 容 跨 ”对 象 中 ， 因此 ， 容 器 的 引用 
计数 器 也 是 内 风 subsystem 的 引用 计数 器 一 一 也 就 是 戏 入 在 subsystem 中 的 kset 所 赃 
的 kobject 的 引用 计数 器 。subsys_get () 和 subsys_put () 国 数 分 别 用 于 增加 和 减少 这 
个 引用 计数 器 的 值 。 


图 13-3 显示 了 设备 驱动 程序 模型 层次 的 一 个 例子 。bus 子 系统 包括 一 个 pci 子 系统 ，pci 
子 系统 又 依次 包含 驱动 程序 的 一 个 kset。 这 个 kset 包 含 一 个 串口 kobject (具有 唯一 new- 
id 属性 的 串口 对 应 的 设备 驱动 器 程序 )。 


。， Subsystem 


。。 SUbsystem 


»。 kobject 


attribute 





13-3; 设备 驱动 程序 层次 模型 的 一 个 实例 


注册 kobject、kset 和 subsystem 

一 般 来 说 ， 如 果 想 让 kobject、kset 或 subsystem 出 现在 sysfs 子 树 中 , 就 必须 首先 注册 它 
们 。 与 kobject 对 应 的 目录 总 是 出 现在 其 父 kobject 的 目录 中 。 例 如 ， 位 于 同一 个 kset 中 
的 kobject 的 目录 出 现在 kset 本 身 的 目录 中 。 因 此 ，sysfs 子 树 的 结构 就 描述 了 各 种 已 注 
册 的 kobject 之 间 以 及 各 种 容器 对 象 之 间 的 层次 关系 。 


通常 ，sysfs 文件 系统 的 上 层 目 录 上 肯定 是 已 注册 的 subsystem。 


kobject_register() 国 数 用 于 初始 化 kobject， 并 且 将 其 相应 的 目录 增加 到 sysfs 文件 系 
统 中 。 在 调用 此 函数 之 前 ， 调 用 程序 应 该 先 设置 kobject 结构 中 的 kset 字段 ,使 它 指 向 其 
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父 kset (如 果 有 的 话 ) 。kobject_unregister() 国 数 则 将 kobject 的 目录 从 sysA 文件 系统 
中 移 走 。 为 了 更 易于 内 核 开 发 者 进行 开发 ，Linux 也 提供 了 kset_register() 和 
kset_unregister() 国 数 , 以 及 subsystem_register() supsystem_unregister() 国 数 ， 


但 本 质 上 它们 是 围绕 kobject_register() 和 kobject_unregister() 的 封装 国 数 。 


如 前 所 述 ， 许 多 kobject 目录 都 包括 称 作 属性 (attribute) 的 普通 文件 。 
sysfs_create_file() 国 数 接收 kobject 的 地 址 和 属性 描述 符 作为 它 的 参数 ， 并 在 合适 
的 目录 中 创建 特殊 文件 ,sysfs 文 件 系 统 中 所 描述 的 对 象 间 的 其 他 关系 可 以 通过 符号 链接 
的 方式 来 建立 : sysfs_create_link() 国 数 为 目录 中 与 其 他 kobject 相关 联 的 特定 
kobject 创建 一 个 符号 链接 。 


设备 驱动 程序 模型 的 组 件 

设备 驱动 程序 模型 建立 在 几 个 基本 数据 结构 之 上 , 这些 结构 描述 了 总 线 、 设 备 、 设 备 驱 
动 器 等 等 。 让 我 们 来 考察 一 下 它们 。 

设备 

设备 驱动 程序 模型 中 的 每 个 设备 是 由 一 个 device 对 象 来 描述 的 ,其 字段 如 表 13-4 所 示 。 
表 13-4: device 对 象 中 的 字段 


类 型 字段 说 明 
struct list_head node 指向 兄弟 设备 链表 的 指针 
struct list head bus_list 指向 连 于 同一 类 型 总 线 上 的 设备 链表 


的 指针 


struct list_head driver_ list 指向 设备 驱动 程序 链表 的 指针 

struct list head children 子 设备 链表 的 首部 

Struct device * parent 指向 父 设备 的 指针 

struct kobject kobj 内 艇 的 kobject 结构 

char [] bus_iqd 连接 到 总 线 上 设备 的 位 置 

Struct bus_type * bus 指 问 所 连接 总 线 的 指针 

Struct device driver * Adriver 指向 控制 设备 驱动 程序 的 指针 

void * driver_data 指向 驱动 程序 私有 数据 的 指针 

VOid * platform data 指向 遗留 设备 驱动 程序 的 私有 数据 的 
指针 


struct dev_pm info 


POwer 


电源 管理 信息 
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表 13-4: device 对 象 中 的 字段 ( 续 ) 


类 型 字段 说 明 

unsigned long detach_ state 鲫 载 设备 驱动 程序 时 电源 进入 的 状态 

unsigned long long * dma_mask 指向 设备 的 DMA 屏蔽 字 的 指针 [ 参 
见 稍 后 的 “直接 内 存 方向 (DMA)” 
一 节 ] 

unsigned long long coherent_dma_mask 设备 的 一 致 性 DMA 的 屏蔽 字 

struct list head dma_pools 聚集 的 DMA 绿 冲 池 链 表 的 首部 

struct dma_coherent mem * dma_mem 指 问 设 备 所 使 用 的 一 致 性 DMA 存储 


器 描述 符 的 指针 [参见 稍 后 的 “直接 
内 存 访问 (DMA)” 一 节 ] 
void (*) (Struet device *) release 释放 设备 描述 符 的 回调 函数 加 





device 对 象 全 部 收集 在 devices_subsys 子 系统 中 ,该 子 系统 对 应 的 目录 为 /sys/devices 
(参见 前 面 的 “kobject” 一 节 )。 设备 是 按照 层次 关系 组 织 的 ; 一 个 设备 是 某 个 “孩子 ” 
的 “父亲 ”， 其 条 件 为 子 设 备 离开 父 设备 无 法 正常 工作 。 例 如 ， 在 基于 PCI 总 线 的 计算 
机 上 ,位 于 PCI 总 线 和 USB 总 线 之 间 的 桥 就 是 连接 在 USB 总 线 上 的 所 有 设备 的 父 设备 。 
qevice 对 象 的 parent 字段 是 指向 其 父 设备 描述 符 的 指针 ，childqren 字 段 是 子 设备 链表 
的 首部 ,而 node 字段 存放 指向 children 链表 中 相 邻 元 素 的 指针 。aqevice 对 象 中 内 伐 的 
kobject 间 的 亲子 关系 也 反映 了 设备 的 层次 关系 ， 因 此 ，/sys/devices 下 的 目录 结构 与 硬 
件 设 备 的 物理 组 织 是 匹配 的 。 


每 个 设备 驱动 程序 都 保持 一 个 device 对 象 链表 ， 其 中 链接 了 所 有 可 被 管理 的 设备 ， 
device 对 象 的 driver_list 字 段 存 放 指向 相 令 对象 的 指针 , 而 driver 字 7 段 指 同 设备 驱 
动 程序 的 描述 符 。 此 外 ， 对 于 任何 总 线 类 型 来 说 , 都 有 一 个 链表 存放 连接 到 该 类 型 总 线 
上 的 所 有 设备 ，device 对 象 的 bus_list 字段 存放 指向 相 令 对象 和 的 指针 ,而 bus 字段 指 
向 总 线 类 型 摘 述 符 。 


引用 计数 器 记录 device 对象 的 使 用 情况 ， 它 包含 在 kobject 类 型 的 kobj 结构 中 ， 通 过 
调用 get_device() 和 put_aqevicel() 国 数 分 别 增 加 和 减少 该 计数 器 的 值 。 


device_register () 畏 数 的 功能 是 往 设 备 驱 动 程序 模型 中 播 入 一 个 新 的 aevice 对 象 ,并 
自动 地 在 /sys/devices 目录 下 为 其 创建 一 个 新 的 上 且 录 。 相 反 地 ，dqevice_unregister () 
印 数 的 功能 是 从 设备 驱动 程序 模型 中 移 走 一 个 设备 。 


通常 ，device 对 象 被 静态 地 供 人 到 一 个 更 大 的 描述 符 中 。 例 如 ，PCI 设 备 是 由 数据 结构 
pci_dqev 描 述 ， 该 数据 结构 的 aev 字段 就 是 一 个 device 对 象 ， 而 其 他 字段 则 是 PCI 总 
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线 所 特有 的 。 在 PCI 内 核 层 上 , 当 注 册 或 注销 设备 时 就 会 分 别 执行 gevice_register () 
国 数 和 aevice_unregister() 国 数 。 


驱动 程序 


设备 驱动 程序 模型 中 的 每 个 驱动 程序 都 可 由 device_driver 对 象 描述 ， 其 各 字段 如 表 
13-5 所 示 。 


表 13-5: device_driver 对 象 中 的 字段 


类 型 字段 说 明 

char * name 设备 驱动 程序 的 名 称 

struct bus_type * bus 指向 总 线 描述 符 的 指针 , 总 线 连接 所 支持 的 
设备 

struct semaphore unload_sem ”禁止 印 载 设备 驱动 程序 的 信号 量 ; 当 引用 计 
数 强 的 值 为 0 时 释放 该 信 吕 量 

struct kobject kob] 内 艇 的 kobject 结 构 

Seraet. ,LisSE ss devices 驱动 程序 支持 的 所 有 设备 组 成 的 链表 的 首部 

struct module * owner 标识 实现 设备 驱动 程序 的 模块 , 如果 有 的 话 
(参见 附录 二 ) 

int {(*}) (Struct device *) probe 探测 设备 的 方法 (检验 设备 驱动 程序 是 否 
可 以 控制 该 设备 ) 

int (*) (struct device *) remove 移 走 设备 时 所 调用 的 方法 

void {*) (struct device *) shutdown ”设备 断 电 (关闭) 时 所 调用 的 方法 


int (*) (struct device *, suspend 设备 置 于 低 功率 状态 时 所 调用 的 方法 
unsigned long, unsiqned long) 


int (*) {struct device *, resume 设备 恢复 正常 状态 时 所 调用 的 方法 


unsigned long) 


i re. i 一 一 一 i 


device_driver 对 象 包括 四 个 方法 , 它们 用 于 处 理 热 插 拔 、 即 插 即 用 和 电源 管理 。 当 总 
线 设 备 驱 动 程序 发 现 一 个 可 能 由 它 处 理 的 设备 时 就 会 调用 probe 方 法 ; 相应 的 函数 将 会 
探测 该 硬件 , 从 而 对 该 设备 进行 更 进一步 的 检查 。 当 移 走 一 个 可 热 播 拔 的 设备 时 驱动 程 
序 会 调用 remove 方法 ;而 驱动 程序 本 身 被 印 载 时 ， 它 所 处 理 的 每 个 设备 也 会 调用 
remove 方 法 。 当 内 核 必 须 改 变 设 备 的 供电 状态 时 ， 设 备 会 调用 shutdown、suspend 和 


resume 三 个 方法 。 


内 艇 在 描述 符 中 的 kobject 类 型 的 kobj 所 包含 的 引用 计数 器 用 于 记录 daevice_dqriver 对 
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象 的 使 用 情况 。 通 过 调用 get_gdriver() 函 数 和 put_driver() 函 数 可 分 别 增加 和 减少 
该 计数 器 的 值 。 


driver_register() 国 数 的 功能 是 往 设 备 驱 动 程序 模型 中 插入 一 个 新 的 aevice_qriver 
对 象 , 并 自动 地 在 sys 卢 文件 系统 下 为 其 创建 一 个 新 的 目录 。 相 反 , driver_unregister() 
国 数 的 功能 则 是 从 设备 驱动 程序 模型 中 移 走 一 个 设备 驱动 对 象 。 


通常 ，daevice_dqriver 对 象 静态 地 被 伐 入 到 一 个 更 大 的 描述 符 中 。 例 如 ，PCI 设备 驱 动 程 
序 是 由 数据 结构 pci_dqriver 摘 述 的 ， 该 数据 结构 的 driver 字段 是 一 个 device driver 
对 象 ， 而 其 他 字段 则 是 PCI 总 线 所 特有 的 。 


总 线 
内 核 所 支持 的 每 一 种 总 线 类 型 都 由 一 个 bus_type 对 象 描述 ， 其 各 字段 如 表 13-6 所 示 。 


表 13-6: bus_type 对 象 中 的 字段 


类 型 字段 说 明 

Char * Dame 总 线 类 型 的 名 称 

struct subsystem subsys 与 总 线 类 型 相关 的 kobject 子 系 统 

struct kset drivers 驱动 程序 的 kobject 集合 

struct kset devices 设备 的 kobject 集合 

struct bus_attribute * bus_attrs ”指向 对 象 的 指针 ,该 对 象 包含 总 线 属 

性 和 用 于 导出 此 属性 到 sysfs 文件 系 

统 的 方法 

Strutt Qevice attriDme dev_attrs 指向 对 象 的 指针 ,该 对 象 包含 设备 属 
性 和 用 于 导出 此 属性 到 sysfs 文件 系 
统 的 方法 

struct driver attribute * drv_ attrs 指向 对 象 的 指针 ,该 对 象 包含 设 各 驱 
动 程序 属性 和 用 于 导出 此 属性 到 
sysfs 文件 系统 的 方法 

int {(*) (struct device *, struct match 检验 给 定 的 设备 驱动 程序 是 否 支 持 特 

device driver *) 定 设 备 的 方法 


int {*) (struct device *, char **, hotplug 注册 设备 时 调用 的 方法 


int, char *, int) 


Ti puet device suspend 保存 硬件 设备 的 上 下 文 状态 并 改变 设 
unsigned long) 备 供电 状态 的 方法 
int (*) (struct device *) resume 改变 供电 状态 和 恢复 硬件 设备 上 下 


文 的 方法 
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每 个 bus_type 类 型 的 对 象 都 包含 一 个 内 峰 的 子 系统 ; 存放 于 bus_subsys 变 量 中 的 子 系 
统 把 能 入 在 pus_type 对 象 中 的 所 有 子 系 统 都 集合 在 一 起 。bus_subsys 子 系统 与 目录 
/sys/bus 是 对 应 的 ， 因 此， 例如 ， 有 一 个 /sys/bus/pci 目 录 ， 它 与 PCI 总 线 类 型 相对 应 。 
每 种 总 线 的 子 系统 通常 包括 两 个 kset, 它们 是 drivers 和 devices (分 别 对 应 于 bus_type 
对 象 中 的 drivers 和 devices 字段 )。 


名 为 drivers 的 kset 包 含 描 述 符 device_driver, 它 描述 与 该 总 线 类 型 相关 的 所 有 设备 
驱动 程序 ， 而 名 为 devices 的 kset 包含 描述 符 device， 它 描述 给 定 总 线 类 型 上 连接 的 
所 有 设备 。 因 为 设备 的 Kkobject 目 录 已 经 出 现在 /sys/devices 下 的 sysfs 文 件 系统 中 ,所 以 
每 种 总 线 子 系统 的 devices 目录 存放 了 指 癌 /sys/devices 下 目录 的 符号 链接 。 
bus_for_each_dqrv() 和 bus_for_each_qev1() 国 数 分 别 用 于 循环 扫描 drivers 和 devices 
链表 中 的 所 有 元 素 。 


当 内 核 检 查 一 个 给 定 的 设备 否 可 以 由 给 定 的 驱动 程序 处 理 时 , 就 会 执行 match 方 法 。 对 
于 连接 设备 的 总 线 而 言 ， 即 使 其 上 每 个 设备 的 标识 符 都 拥有 一 个 特定 的 格式 ， 实 现 
match 方 法 的 函数 通常 也 很 简单 , 因为 它 只 需要 在 所 支持 标识 符 的 驱动 程序 表 中 搜索 设 
备 的 描述 符 。 在 设备 驱动 程序 模型 中 注册 某 个 设备 时 会 执行 hotplug 方 法 ; 实现 国 数 应 
该 通过 环境 变量 把 总 线 的 具体 信息 传递 给 用 户 态 程序 , 以 通告 一 个 新 的 可 用 设备 (参见 
后 面 的 “注册 设备 驱动 程序 ”一 节 ) 。 最 后 ， 当 特定 类 型 总 线 上 的 设备 必须 改变 其 供电 
状态 时 ， 就 会 执行 suspend 和 resume 方法 。 


凌 


每 个 类 是 由 一 个 class 对 象 描 述 的 。 所 有 的 类 对 象 都 属于 与 /sys/class 目录 相对 应 的 
class_subsys 子 系统 。 此 外 ， 每 个 类 对 象 还 包括 一 个 内 艇 的 子 系统 ， 因 此， 例如 有 一 
个 /sys/class/input 目录 ， 它 就 与 设备 驱动 程序 模型 的 input 类 相对 应 。 


每 个 类 对 象 包括 一 个 class_device 描 述 符 链表 ,其 中 每 个 描述 符 描述 了 一 个 属于 该 类 
的 单独 逻辑 设备 。class_device 结构 中 包含 一 个 dev 字段 ， 它 指向 一 个 设备 描述 符 ， 
因此 一 个 逻辑 设备 总 是 对 应 于 设备 驱动 程序 模型 中 的 一 个 给 定 的 设备 。 然而 , 可 以 存在 
多 个 class_device 描 述 符 对 应 同一 个 设备 。 事实 上 ,一 个 硬件 设备 可 能 包括 几 个 不 同 
的 子 设备 ， 每 个 子 设 备 都 需要 一 个 不 同 的 用 户 态 接口 。 例 如 ， 声 卡 就 是 一 个 硬件 设备 ， 
它 通 常 包括 一 个 DSP (digital singnal processor,， 数字 信号 处 理 器 )、 一 个 混 音 器 、 一 个 
游戏 端口 接口 等 等 ; 每 个 子 设备 需要 一 个 属于 自己 的 用 户 态 接口 , 因此 sysfs 文 件 系 统 中 
都 有 与 它们 相对 应 的 目录 。 


同一 类 中 的 设备 碟 动 程序 可 以 对 用 户 态 应 用 程序 提供 相同 的 功能 , 例如 , 声卡 上 的 所 有 
设备 蝶 动 程序 都 提供 一 个 可 以 向 DSP 中 写 入 声音 样本 的 方法 。 
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设备 驱动 程序 模型 中 的 类 本 质 上 是 要 提供 一 个 标准 的 方 革 ,从 而 为 向 用 户 态 应 用 程序 导 
出 逻辑 设备 的 接口 。 每 个 class_device 描 述 符 中 内 峰 一 个 kobject， 这 是 一 个 名 为 dev 
的 属性 (特殊 文件 )。 该 属性 存放 设备 文件 的 主 设备 号 和 次 设备 号 ， 通 过 它们 可 以 访问 
相应 的 逻辑 设备 (参见 下 一 市 )。 


设备 文件 


正如 在 第 一 章 中 所 提 到 的 那样 ,类 Unix 操 作 系 统 都 是 基于 文件 概念 的 , 文件 是 由 字 节 序 
列 而 构成 的 信息 载体 。 根 据 这 一 点 ， 可 以 把 IO 设备 当 作 设备 文件 (device file) 这 种 所 
谓 的 特殊 文件 来 处 理 , 因此 , 与 磁盘 上 的 普通 文件 进行 交互 所 用 的 同一 系统 调用 可 直接 
用 于 IO 设备。 例如 ， 用 同一 write() 系 统 调用 既 可 以 向 普通 文件 中 写 入 数据 ， 也 可 以 
通过 向 /dev/Ip0 设备 文件 中 写 入 数据 从 而 把 数据 发 往 打 印 机 。 


根据 设备 驱动 程序 的 基本 特性 ,设备 文件 可 以 分 为 丙种: 块 和 字符 。 这 两 种 硬件 设备 之 
间 的 差异 并 不 容易 划分 ， 但 我 们 至 少 可 以 假定 以 下 的 差异 : 


。 ” 块 设备 的 数据 可 以 被 随机 访问 ,而 且 从 人 类 用 户 的 观点 看 ,传送 任何 数据 块 所 需 的 
时 间 都 是 较 少 且 大 致 相同 的 。 块 设备 的 典型 例子 是 硬盘 、 软 盘 、CD-ROM 驱动 器 
及 DVD 播放 器 。 


。 ”字符 设备 的 数据 或 者 不 可 以 被 随机 访问 (考虑 声卡 这 样 的 例子 ), 或 者 可 以 被 随机 
访问 , 但 是 访问 随机 数据 所 需 的 时 间 很 大 程度 上 依赖 于 数据 在 设备 内 的 位 置 (考虑 
磁带 驱动 器 这 样 的 例子 )。 


网 卡 是 这 种 模式 的 一 种 明显 的 例外 ， 因 为 网 卡 是 不 直接 与 设备 文件 相对 应 的 硬件 设备 。 


自从 Unix 操 作 系 统 早期 版 本 以 来 , 设备 文件 就 一 直 在 使 用 。 设备 文件 是 存放 在 文件 系统 
中 的 实际 文件 。 然而 , 它 的 索引 市 点 并 不 包含 指向 磁盘 上 数据 块 (文件 的 数据 ) 的 指针 ， 
因为 它们 是 空 的 。 相反 , 索引 市 点 必须 包含 硬件 设备 的 一 个 标识 符 , 它 对 应 字符 或 块 设 
备 文件 。 


传统 上 , 设备 标识 符 由 设备 文件 的 类 型 (字符 或 块 ) 和 一 对 参数 组 成 。 第 一 个 参数 称 为 
主 设备 号 (major number)， 它 标识 了 设备 的 类 型 。 通 常 ， 具 有 相同 主 设备 号 和 类 型 的 
所 有 设备 文件 共享 相同 的 文件 操作 集合 , 因为 它们 是 由 同一 个 设备 驱动 程序 处 理 的 。 第 
二 个 参数 称 为 次 设备 号 (minor number)， 它 标识 了 主 设备 写 相 同 的 设备 组 中 的 一 个 特 
定 设备 。 例如 ,由 相同 的 磁盘 控制 器 管理 的 一 组 磁盘 具有 相同 的 主 设备 号 和 不 同 的 次 设 
备 号 。 


mknod() 系统 调用 用 来 创建 设备 文件 。 其 参数 有 设备 文件 名 、 设 备 类 型 、 主 设备 号 及 次 
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设备 号 。 设备 文件 通常 包含 在 /dev 目 录 中 。 表 13-7 显 示 了 一 些 设备 文件 的 属性 。 注意 字 
符 设 备 和 块 设 备 有 独立 的 编号 ， 因 此 ， 块 设备 (3,0) 不 同 于 字符 设备 (3,0)。 


表 13-7: 设备 文件 的 例子 


设备 名 类 型 主 设备 号 ”次 设备 号 ”说 明 

/dev/fd0 块 设备 2 0 软盘 

/dev/hda 块 设备 3 0 第 一 个 IDE 磁盘 

/dev/hda?2 块 设备 3 2 第 一 个 IDE 磁盘 上 的 第 二 个 主 分 区 
/dev/hdb 块 设 备 3 64 第 二 个 [DE 磁盘 

/dev/hdb3 块 设备 3 67 第 二 个 IDE 磁盘 上 的 第 三 个 主 分 区 
/dev/ttyp0 字符 设备 3 0 终端 

/dev/console 字符 设备 5 | 控制 台 

/dev/lp] 字符 设备 6 ] 并 口 打印 机 

/dev/t1yS0 字符 设备 4 64 第 一 个 串口 

/dev/ric 字符 设备 。 10 135 实时 时 钟 

/dev/null 字符 设备 1 3 空 设备 (黑洞 ) 





设备 文件 通常 与 硬件 设备 (如 硬盘 /dev/hda)，, 或 硬件 设备 的 某 一 物理 或 逻辑 分 区 (如 磁 
盘 分 区 /dev/hda2) 相对 应 。 但 在 某 些 情况 下 , 设备 文件 不 会 和 任何 实际 的 硬件 对 应 , 而 
是 表示 一 个 虚拟 的 人 辑 设备 。 例 如 ，/dev/null 就 是 一 个 和 “黑洞 ”对 应 的 设备 文件 ， 所 
有 写 入 这 个 文件 的 数据 都 被 简单 地 丢弃 因此， 该 文件 看 起 来 总 为 空 。 


就 内 核 所 关心 的 内 容 而 言 , 设备 文件 名 是 无 关 紧 要 的 。 如果 你 建立 了 一 个 名 为 /1mp/disk 
的 设备 文件 ， 类 型 为 “ 块 "， 主 设备 号 是 3， 次 设备 号 是 0， 那 么 这 个 设备 文件 就 和 表 13-7 
中 的 /devYhda 等 价 。 另 一 方面 ， 对 某 些 应 用 程序 来 说 ， 设 备 文件 名 可 能 就 很 有 意义 。 例 
如 ， 通 信 程 序 可 能 假设 第 一 个 串口 和 /devwrrySs0 设 备 文件 对 应 。 但 是 ， 通 常 可 以 把 大 部 
分 应 用 程序 设 定 为 随意 地 与 指定 的 设备 文件 进行 交互 。 


设备 文件 的 用 户 态 处 理 

传统 的 Unix 系统 中 (以 及 Linux 的 早期 版 本 中 )， 设备 文 件 的 主 设备 号 和 次 设备 号 都 是 
8 位 长 。 因 此 ， 最 多 只 能 有 65536 个 块 设备 文件 和 65536 个 字符 设备 文件 。 你 可 能 认为 
这 些 已 经 足够 了 ， 但 遗憾 的 是 它们 并 不 够 用 。 


真正 的 问题 是 设备 文件 被 分 配 一 次 且 永 远 保 存在 /dev 目 录 中 ;因此 , 系统 中 的 每 个 逻辑 设 
备 都 应 该 有 一 个 与 其 相对 应 的 .明确 定义 了 设备 号 的 设备 文件 。, Documentation/devices.iIxt 
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文件 存放 了 官方 注册 的 已 分 配 设 备 号 和 /dev 目 录 市 点 ， include Winux/major.h 文 件 也 可 能 
包含 设备 的 主 设备 号 对 应 的 宏 。 


不 素 的 是 ， 如今 各 种 不 同 的 硬件 设备 数量 惊人 ， 几乎 分配 了 所 有 的 设备 号 。 官 方 注册 的 
设备 号 对 于 一 般 的 Linux 系统 还 能 胜任 ， 然 而， 它 却 不 能 很 好 地 适用 于 大 规模 的 系统 。 
此 外 , 高端 系统 可 能 使 用 数 百 或 数 干 的 同类 型 磁盘 , 因而 8 位 的 次 设备 号 是 隐 远 不 够 的 。 
例如 ， 注 册 表 为 16 个 SCSI 磁 盘 保留 了 设备 号 ， 而 每 个 SCS[ 磁 盘 拥 有 15 个 分 区 ， 如 果 
一 个 高 端 系统 拥有 多 于 16 个 的 SCSI 磁 盘 , 那么 必须 改变 原先 主 设备 号 和 次 设备 号 的 标 
准 分 配 一 一 这 是 一 个 非常 繁琐 的 工作 , 它 需 要 改变 内 核 源 代码 并 且 使 得 系统 难以 维护 。 


为 了 解决 上 述 问 题 ，Linux 2.6 已 经 增加 了 设备 号 的 编码 大 小 : 目前 主 设备 号 的 编码 为 
12 位 ， 次 设备 号 的 编码 为 20 位。 通常 把 这 两 个 参数 合并 成 一 个 32 位 的 dev_t 变量 ， 
MAJOR 宏 和 MINOR 宏 可 以 从 aev 上 中 分 别提 取 主 设备 号 和 次 设备 号 , 而 MKDEV 宏 可 以 
把 主 设备 号 和 次 设备 号 合并 成 一 个 dev_t 值 。 为 了 实现 向 后 兼容 ,内核 仍然 可 以 正确 地 
处 理 设备 号 编码 为 16 位 的 老式 设备 文件 。 


官方 注册 表 不 能 静态 地 分 配 这 些 附 加 的 可 用 设备 号 ,只 有 在 处 理 设备 号 的 特殊 要 求 时 才 
允许 使 用 。 事 实 上 ,对 分 配 设备 号 和 创建 设备 文件 来 说 ， 如 今 更 倾向 的 做 法 是 高 度 动态 
地 处 理 设 备 文件 。 


动态 分 配 设 备 号 

每 个 设备 驱动 程序 在 注册 阶段 都 会 指定 它 将 要 处 理 的 设备 号 范围 (参见 后 面 的 “注册 
设备 驱动 程序 ”一 节 )。 然 而 ， 驱 动 程序 可 以 只 指定 设备 号 的 分 配 范围 ， 无 需 指 定 精确 
的 值 : 在 这 种 情形 下 ， 内 核 会 分 配 一 个 合适 的 设备 号 范围 给 驱动 程序 。 


因此 , 新 的 硬件 设备 驱动 程序 不 再 需要 从 官方 注册 表 中 分 配 的 一 个 设备 号 ， 它们 可 以 仅 
仅 使 用 当前 系统 中 空闲 的 设备 号 。 


然而 , 在 这 种 情形 下 ， 就 不 能 永久 性 地 创建 设备 文件 ， 它 只 在 设备 驱动 程序 初始 化 一 个 
主 设备 号 和 次 设备 号 时 才 创 建 。 因 此 , 这 就 需要 有 一 个 标准 的 方法 将 每 个 驱动 程序 所 使 
用 的 设备 号 输出 到 用 户 态 应 用 程序 中 。 正 如 我 们 在 前 面 “ 设 备 驱 动 程序 模型 的 组 件 ” 一 
节 所 看 到 的 , 设备 驱动 程序 模型 提供 了 一 个 非常 好 的 解决 办 法 : 把 主 设备 号 和 次 设备 号 
存放 在 /sys/class 子 目 录 下 的 dev 属性 中 。 


动态 创建 设备 文件 


Linux 内 核 可 以 动态 地 创建 设备 文件 : 它 无 需 把 每 一 个 可 能 想到 的 硬件 设备 的 设备 文件 
都 填充 到 /dev 目 录 下 ,因为 设备 文件 可 以 按照 需要 来 创建 。 由 于 设备 驱动 程序 模型 的 存 
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在 ，Linux 2.6 内 核 提供 了 一 个 非常 简单 的 方法 来 处 理 这 个 问题 。 系 统 中 必须 安装 一 组 
称 为 udev 工具 集 的 用 户 态 程序 。 当 系统 启动 时 ，/dev 目录 是 清空 的 ， 这 时 udev 程序 将 
扫描 /sys/class 子 目录 来 寻找 dev 文 件 。 对 每 一 个 这 样 的 文件 ( 主 设备 号 和 次 设备 号 的 组 
合 表 示 一 个 内 核 所 支持 的 逻辑 设备 文件 )，udev 程 序 都 会 在 /dev 目 录 下 为 它 创建 一 个 相 
应 的 设备 文件 。udev 程 序 也 会 根据 配置 文件 为 其 分 配 一 个 文件 名 并 创建 一 个 符号 链接 ， 
该 方法 类 似 于 Unix 设 备 文件 的 传统 命名 模式 。 最后, /dev 目录 里 只 存放 了 系统 中 内 核 所 
支持 的 所 有 设备 的 设备 文件 ， 而 没有 任何 其 他 的 文件 。 


通常 在 系统 初始 化 后 才 创 建设 备 文 件 。 它 要 么 发 生 在 加 载 设备 驱动 程序 (系统 尚未 支持 
该 设备 ) 所 在 的 模块 时 , 要 么 发 生 在 一 个 热 拨 插 的 设备 (如 USB 外 围 设备 ) 加 入 系统 中 
了 时 。udev 工 具 集 可 以 目 动 地 创建 相应 的 设备 文件 , 因为 设备 驱动 程序 模型 支持 设备 的 热 
插 拔 。 当 发 现 一 个 新 的 设备 时 ， 内 核 会 产生 一 个 新 的 进程 来 执行 用 户 态 shell 脚本 文件 
/sbin/hotplug( 注 3), 并 将 新 设备 上 的 有 用 信息 作为 环境 变量 传递 给 shell 有 和 脚本。 用户 态 
脚本 文件 读 取 配置 文件 信息 并 关注 完成 新 设备 初始 化 所 必需 的 任何 操作 。 如 果 安 装 了 
udev 工具 集 ， 脚 本 文件 也 会 在 /dev 目录 下 创建 适当 的 设备 文件 。 


设备 文件 的 VFS 处 理 


虽然 设备 文件 也 在 系统 的 目录 树 中 ， 但 是 它们 和 普通 文件 以 及 目录 文件 有 根本 的 不 同 。 
当 进 程 访 问 普通 文件 时 , 它 会 通过 文件 系统 访问 磁盘 分 区 中 的 一 些 数据 块 , 而 在 进程 访 
问 设备 文件 时 , 它 只 要 驱动 硬件 设备 就 可 以 了 。 例如 ,进程 可 以 访问 一 个 设备 文件 以 从 
连接 到 计算 机 的 温度 计 读 取 房间 的 温度 ,为 应 用 程序 隐藏 设备 文件 与 普通 文件 之 间 的 差 
异 正 是 VFS 的 责任 。 


为 了 做 到 这 点 ，VYFS 在 设备 文件 打开 时 改变 其 缺 省 文件 操作 ， 因 此 ， 可 以 把 设备 文件 的 
每 个 系统 调用 都 转换 成 与 设备 相关 的 图 数 的 调用 ,而 不 是 对 主 文件 系统 相应 国 数 的 调用 。 
与 设备 相关 的 函数 对 硬件 设备 进行 操作 以 完成 进程 所 请 求 的 操作 ( 注 4)。 


让 我 们 假定 进程 在 设备 文件 ( 块 或 字符 类 型 ) 上 执行 open () 系统 调用 。 这 个 系统 调用 
所 执行 的 操作 已 经 在 第 十 二 章 “open(O 系 统 调 用 ”一 节 进 行 了 描述 。 从 本 质 上 说 ， 相 应 
的 服务 例 程 解析 到 设备 文件 的 路 径 名 , 并 建立 相应 的 索引 节点 对 象 、 目录 项 对 象 和 文件 
对 象 。 





注 3: 可 以 通过 写 /proc/sys/kernel/hotplug 文件 改变 在 发 生 热 插 拔 事件 时 所 调用 的 用 户 态 程序 
的 路 径 名 。 

注 4: 注意 ， 根 据 第 十 二 章 中 的 “路 径 名 查找 ”一 节 中 介绍 的 命名 解析 机 制 ， 指 向 设备 文件 的 
符号 链接 与 设备 文件 的 作用 相同 。 
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通过 适当 的 文件 系统 图 数 (通常 为 ext2_read inode() 或 ext3_read inode(); 参见 
第 十 八 章 ) 读 取 磁盘 上 的 相应 索引 节点 来 对 索引 布点 对 象 进行 初始 化 。 当 这 个 函数 确定 
磁盘 索引 节点 与 设备 文件 对 应 时 ， 则 调用 ijnit_special_inode(), 该 函数 把 索引 节点 
对 象 的 1_rdaev 字段 初始 化 为 设备 文件 的 主 设备 号 和 次 设备 号 ， 而 把 索引 节点 对 象 的 
i_fop 字 段 设 置 为 aef_blk_fops 或 者 aef_chr_fops 文 件 操作 表 的 地 址 (根据 设备 文件 
的 类 型 ) 。 因 此 ，open () 系统 调用 的 服务 例 程 也 调用 aentry_open() 国 数 ， 后 者 分 配 一 
个 新 的 文件 对 象 并 把 其 E_op 字段 设置 为 i _ fop 中 存放 的 地 址 ， 即 再 一 次 指向 
def_blk_fops 或 aef_chr_fops 的 地 址 。 正 是 这 两 个 表 的 引入 , 才 使 得 在 设备 文件 上 所 
发 出 的 任何 系统 调用 都 将 激活 设备 驱动 程序 的 图 数 而 不 是 基本 文件 系统 的 国 数 。 


设备 驱动 程序 

设备 驱动 程序 是 内 核 例 程 的 集合 , 它 使 得 硬件 设备 啊 应 控制 设备 的 编程 接口 , 而 该 接口 
是 一 组 规范 的 VFS 国 数 集 (copen，read，1lseek，ioct1l 等 等 )。 这 些 沙 数 的 实际 实现 
由 设备 驱动 程序 全 权 人 负责 。 由 于 每 个 设备 都 有 一 个 唯一 的 WO 控制 器 ， 因 此 就 有 唯一 的 
命令 和 唯一 的 状态 信息 ， 所 以 大 部 分 IO 设备 都 有 自己 的 驱动 程序 。 


设备 驱动 程序 的 种 类 有 很 多 ,它们 在 对 用 户 态 应 用 程序 提供 支持 的 级 别 上 有 很 大 的 不 同 ， 
也 对 来 自 硬件 设备 的 数据 采集 有 不 同 的 缓冲 策略 。 这 些 选择 极 大 地 影响 了 设备 驱动 程序 
的 内 部 结构 ， 我 们 将 在 “直接 内 存 访 问 (DMA)” 和 “字符 设备 的 缓冲 策略 ”两 节 进 行 
讨论 。 


设备 驱动 程序 并 不 仅仅 由 实现 设备 文件 操作 的 函数 组 成 。 在 使 用 设备 驱动 程序 之 前 ， 有 
几 个 活动 是 肯定 要 发 生 的 。 我 们 将 在 下 面 几 节 考 察 它们 。 


注册 设备 驱动 程序 

我 们 知道 在 设备 文件 上 发 出 的 每 个 系统 调用 都 由 内 核 转 化 为 对 相应 设备 驱动 程序 的 对 应 
图 数 的 调用 。 为 了 完成 这 个 操作 ， 设 备 驱 动 程序 必须 注册 自己 。 换 句 话说 ,注册 一 个 设 
备 驱 动 程序 意味 着 分 配 一 个 新 的 device_qriver 描 述 符 ,将 其 插入 到 设备 驱动 程序 模型 
的 数据 结构 中 (参见 “设备 驱动 程序 模型 的 组 件 ” 一 节 ), 并 把 它 与 对 应 的 设备 文件 (可 
能 是 多 个 设备 文件 ) 连接 起 来 。 如 果 设 备 文件 对 应 的 驱动 程序 以 前 没有 注册 ， 则 对 该 设 
备 文件 的 访问 会 返回 错误 码 -ENODEV。 


如 果 设 备 驱动 程序 被 静态 地 编译 进 内 核 , 则 它 的 注册 在 内 核 初 始 化 阶段 进行 。 相 反 ， 如 
果 驱 动 程序 是 作为 一 个 内 核 模块 来 编译 的 〈 参 见 附录 二 ) ， 则 它 的 注册 在 模块 装 入 时 进 
行 。 在 后 一 种 情况 下 ， 设 备 驱 动 程序 也 可 以 在 模块 印 载 时 注销 自己 。 
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例如 ， 我们 考虑 一 个 通用 的 PCI 设 备 。 为 了 能 正确 地 对 其 进行 处 理 , 其 设备 驱动 程序 必 
须 分 配 一 个 pci_driver 类 型 的 描述 符 ，PCIl 内 核 层 使 用 该 描述 符 来 处 理 设备 。 初 始 化 
描述 符 的 一 些 字 段 后 ,设备 驱动 程序 就 会 调用 pci_register_dqriver() 国 数 。 事 实 上 ， 
pci_qdriver 描 述 符 包 括 一 个 内 骨 的 device_driver 找 述 符 (参见 前 面 的 “设备 驱动 程 
序 模型 的 组 件 ” 一 节 )， pci_register_driver() 函 数 仅 仅 初始 化 内 贝 的 驱动 程序 描述 
符 中 的 字段 ,然后 调用 ariver_register() 国 数 把 驱动 程序 插入 设备 驱动 程序 模型 的 数 
据 结构 中 。 


注册 设备 驱动 程序 时 ,内 核 会 寻找 可 能 由 该 驱动 程序 处 理 但 还 尚未 获得 支持 的 硬件 设备 。 
为 了 做 到 这 点 ， 内 核 主要 依靠 相关 的 总 线 类 型 描述 符 bus_type 的 match 方 法 ,以 及 
qevice_qriver 对 象 的 probe 方法 。 如 果 探 测 到 可 被 驱动 程序 处 理 的 硬件 设备 ， 内 核 会 
分 配 一 个 设备 对 象 ,然后 调用 device_register() 函 数 把 设备 插入 设备 驱动 程序 模型 中 。 


初始 化 设备 驱动 程序 
对 设备 驱动 程序 进行 注册 和 初始 化 是 两 件 不 同 的 事 。 设 备 驱动 程序 应 当 尽快 被 注册 ， 以 
便 用 户 态 应 用 程序 能 通过 相应 的 设备 文件 使 用 它 。 相 反 , 设备 驱动 程序 在 最 后 可 能 的 时 
刻 才 被 初始 化 。 事 实 上 ,初始 化 驱动 程序 意味 着 分 配 宝 贵 的 系统 资源 ， 这 些 资源 因此 就 
对 其 他 驱动 程序 不 可 用 了 。 


我 们 已 经 在 第 四 章 “LO 中 断 处 理 ” 一 节 看 到 一 个 例子 : 把 IRQ 分 配给 设备 通常 是 目 动 
进行 的 , 这 正好 发 生 在 使 用 设备 之 前 ,因为 多 个 设备 可 能 共享 同一 条 IRQ 线 。 其 他 可 以 
在 最 后 时 刻 被 分 配 的 资源 是 用 于 DMA 传 送 缓 冲 区 的 页 框 和 DMA 通 道 本 身 (用 于 像 软盘 
驱动 背 那 样 的 老式 非 PCI 设备 )。 


为 了 确保 资源 在 需要 时 能 够 获得 ,在 获得 后 不 再 被 请 求 , 设备 驱动 程序 通常 采用 下 列 模式 : 
。 3 用 计数 器 记录 当前 访问 设备 文件 的 进程 数 。 在 设备 文件 的 open 方 法 中 计数 器 被 
增加 ， 在 release 方 法 中 被 减少 ( 注 5)。 


。 open 方法 在 增加 引用 计数 器 的 值 之 前 先 检查 它 。 如 果 计 数 器 为 0, 则 设备 驱动 程序 
必须 分 配 资源 并 激活 硬件 设备 上 的 中 断 和 DMA。 

。 ”Telease 方 法 在 减少 使 用 计数 器 的 值 乙 后 检查 它 。 如 果 计 数 器 为 0， 说 明 已 经 没有 
进程 使 用 这 个 硬件 设备 。 如 果 是 这 样 , 该 方法 将 禁止 7O 控制 右上 的 中 断 和 DMA， 
然后 释放 所 分 配 的 资源 。 





注 5: 更 确切 地 说 ， 引 用 计数 器 记录 引用 设备 文件 的 文件 对 象 的 个 数 ， 因 为 子 进程 可 能 共享 文 
件 对 象 。 
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监控 MO 操作 

IO 操作 的 持续 时 间 通 常 是 不 可 预知 的 。 这 可 能 和 机 械 装 置 的 情况 有 关 〈《 对 于 要 传送 的 数 
据 块 来 说 是 磁头 的 当前 位 置 ) ， 和 实际 的 随机 事件 有 关 〈 数 据 包 什么 时 候 到 达 网 卡 ) ， 还 
和 人 为 因素 有 关 〈 用 户 在 键盘 上 按 下 一 个 键 或 者 发 现 打 印 机 夹 纸 了 ) 。 在 任何 情况 下 ， 局 
动 IO 操作 的 设备 驱动 程序 都 必须 依靠 一 种 监控 技术 在 IO 操作 终止 或 超时 时 发 出 信号 。 


在 终止 操作 的 情况 下 ， 设 备 驱 动 程序 读 取 IO 接口 状态 寄存 器 的 内 容 来 确定 1/O 操作 是 
否 成 功 执 行 。 在 超时 的 情况 下 ， 驱动 程序 知道 一 定 出 了 问题 ,因为 完成 操作 所 允许 的 最 
大 时 间 间 隔 已 经 用 完 ， 但 什么 也 没 做 。 


监控 IO 操作 结束 的 两 种 可 用 技术 分 别称 为 轮 询 模 式 (polling mode) 和 中 断 模式 


(interrupt mode )。 


轮 询 模式 


CPU 依照 这 种 技术 重复 检查 〈 轮 询 ) 设备 的 状态 寄存 器 ， 直 到 寄存 器 的 值 表明 I/O 操作 
已 经 完成 为 止 。 我 们 已 经 在 第 五 童 的 “ 自 旋 锁 ”一 市 中 提 到 一 种 基于 轮 询 的 技术 : 当 处 
理 器 试图 获得 一 个 繁忙 的 自 旋 锁 时 ， 它 就 重复 地 查询 变量 的 值 ， 直 到 该 值 变 成 0 为 止 。 
但 是 ,应 用 到 IO 操作 中 的 轮 询 技术 更 加 巧妙 ， 这 是 因为 驱动 程序 还 必须 记 住 检查 可 能 
的 超时 。 下 面 是 轮 询 的 一 个 简单 例子 : 
FO 
If (read _ status (device) & DEVICE END_ OPERATION) break:; 


if {--count == 0) break,; 


} 


在 进入 循环 之 前 ，count 变量 已 被 初始 化 ， 每 次 循环 部 对 count 的 值 减 1， 因此 就 可 以 
使 用 这 个 变量 实现 一 种 粗略 的 超时 机 制 。 另外 , 更 精确 的 超时 机 制 可 以 通过 这 样 的 方法 
实现 : 在 每 次 循环 时 读 取 节拍 计数 器 jiffies 的 值 (请 参看 第 六 章 中 的 “更 新 时 间 和 日 
期 ”一 市 )， 并 将 它 与 开始 等 待 循 环 之 前 读 取 的 原 值 进行 比较 。 


如 果 完 成 1O 操作 需要 的 时 间 相 对 较 多 ， 比 如 说 毫秒 级 ， 那 么 这 种 模式 就 变 得 低 效 ， 因 
为 CPU 花费 宝贵 的 机 器 周期 去 等 待 IO 操作 的 完成 。 在 这 种 情况 下 , 在 每 次 轮 询 操作 之 
后 ， 可 以 通过 把 schedule () 的 调用 插入 到 循环 内 部 来 自愿 放弃 CPU。 


中 断 模式 
如 果 1/O 控制 器 能 够 通过 IRQ 线 发 出 1/0 操作 结束 的 信号 ， 那 么 中 断 模式 才能 被 使 用 。 


我 们 现在 通过 一 个 简单 的 例子 说 明 中 断 模 式 如 何 工作 。 假 定 我 们 想 实 现 一 个 简单 的 输入 
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字符 设备 的 驱动 程序 。 当 用 户 在 相应 的 设备 文件 上 发 出 read() 系统 调用 了 时， 一 条 输入 
命令 被 发 往 设 备 的 控制 寄存 器 。 在 一 个 不 可 预知 的 长 时 间 间 隔 后 , 设备 把 一 个 字 节 的 数 
据 放 进 输 入 寄存 器 。 设 备 哎 动 程序 然后 将 这 个 字 市 作为 read() 系 统 调 用 的 结果 返回 。 


这 是 一 个 用 中 断 模 式 实现 驱动 程序 的 典型 例子 。 实 质 上 ， 驱 动 程序 包含 两 个 函数 : 


1. 实现 文件 对 象 read 方法 的 foo_readq() 国 数 。 
2， 处 理 中 断 的 foo_interrupt () 国 数 。 


只 要 用 户 读 设备 文件 ，foo_read( ) 国 数 就 被 触发 ， 


ssize_t foo_ read{struct file *filp, char *buf, size tr count, 
loff_t *ppos) 
{ 
foo_ dev _t * foo_ dev = filp->private_data; 
If (down_interruptible(&kfoo_dev->Ssem) 
return -ERESTARTSYS; 
foo dev->intr = 0， 
OUcb {DEV_FOO_READ, DEV_FOO_CONTROL. PORT);} 
wait_event_interruptiblel(foo dev->wait, (foo dev->intr= =]1)}); 
It (put user (foo dev->data, buf)) 
return -EFAULT,; 
up{l&kfoo_ dev->sem); 
return 1; 


} 


设备 驱动 程序 依赖 类 型 为 foo_dev 上 的 目 定义 描述 符 , 它 包含 信号 量 sem (保护 硬件 设备 
免 受 并 发 访问 ) 、 等 待 队列 wait、 标 志 intr ( 当 设 备 发 出 一 个 中 断 时 设置 ) 及 单个 字 市 组 
冲 区 data (由 中 断 处 理 程 序 写 人 且 由 read 方 法 读 取 )。 一 般 而 言 , 所 有 使 用 中 断 的 VO 豫 
动 程序 都 依赖 中 断 处 理 程序 及 read 和 write 方法 均 访 问 的 数据 结构 。fco_qev 上 描述 符 
的 地 址 通常 存放 在 设备 文件 的 文件 对 象 的 private_data 字 段 中 或 一 个 全 局 变量 中 。 


foo_read() 国 数 的 主要 操作 如 下 ; 


1 获取 foo_qev->sem 信 号 量 ， 因 此 确保 没有 其 他 进程 访问 该 设备 。 

2. 清 intr 标 志 。 

3. ”对 1/0 设备 发 出 读 命令 。 

4. 执行 wait_event_interruptible 以 挂 起 进程 ， 直 到 intr 标 志 变 为 1!。 这 个 宏 已 
在 第 三 章 “ 等 待 队列 ”一 节 描 述 过 。 


一 定时 间 后 ， 我 们 的 设备 发 出 中 断 信号 以 通知 IO 操作 已 经 完成 ， 数 据 已 经 放 在 适当 的 
DEV_FOO_DATA_PORT 数 据 端 口 。 中 断 处 理 程序 置 intr 标 志 并 唤醒 进程 。 当 调度 程序 
决定 重新 执行 这 个 进程 时 ，foo_read () 的 第 二 部 分 被 执行 ， 步 又 如 下 . 
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1. 把 准备 在 foo_dev->data 变量 中 的 字符 拷贝 到 用 户 地 址 空间 ，。 
2. 释放 foo_dev->sem 信 号 量 后 终止 。 


为 了 简单 起 见 , 我 们 没有 包含 任何 超时 控制 。 一般 来 说 , 超时 控制 是 通过 静态 或 动态 定 
时 器 实现 的 (参见 第 六 章 )， 定时 器 必须 设置 为 启动 IO 操作 后 正确 的 时 间 , 并 在 操作 结 
束 时 删除 。 


让 我 们 来 看 一 下 foeo_interrupt () 国 数 的 代码 : 


voida foo_interrupt (int irg, void *dev_id, struct pt_regs *regs) 
{ 

foo->data = inb{(DEV_FOO DATA_PORT}): 

foo->intr = 1; 

wake_up_interruptible(&foo->wait); 

return 1:; 


| 


中 断 处 理 程序 从 设备 的 输入 寄存 器 中 读 字 符 , 并 把 它 存 放 在 foo 全 局 变量 指向 的 驱动 程序 
描述 符 foo_dev_t 的 data 字 7 段 中 ,然后 设置 intr 标 志 , 并 调用 wake_up_interruptible() 
国 数 唤醒 在 foo->wait 等 待 队列 上 阻塞 的 进程 。 


注意 ， 三 个 参数 中 没有 一 个 被 中 断 处 理 程 序 使 用 ， 这 是 相当 普遍 的 情况 。 


访问 I/O 共享 存储 器 


根据 设备 和 总 线 的 类 型 , PC 体系 结构 里 的 MO 共享 存储 器 可 以 被 映射 到 不 同 的 物理 地 址 
范围 。 主 要 有 : 


对 于 压 按 到 154 点 线 上 的 大 多 数 设备 
LO 共享 存储 器 通常 被 映射 到 0xa0000~0xfffff 的 16 位 物理 地 址 范围 ,这 就 在 
640 KB 和 1 MB 之 间 留 出 了 一 7 段 空间 ， 就 是 我 们 在 第 二 章 的 “物理 内 存 布局 ”一 
节 中 所 介绍 的 那个 “空洞 。 


对 于 连 共 到 PCI 总线 上 的 设备 
LO 共享 存储 器 被 映射 到 接近 4 GB 的 32 位 物理 地 址 范围 。 这 种 类 型 的 设备 更 加 容 
易 处 理 。 


几 年 以 前 , Inte1 引入 了 图 形 加 速 端口 (AGP) 标准 ,该 标准 是 适合 于 高 性 能 图 形 卡 的 PCI 
的 增强 ,这 种 卡 除 了 有 自己 的 W/O 共享 存储 器 外 ,还 能 够 通过 图 形 地 址 再 映像 表 (GART) 
这 个 特殊 的 硬件 电路 直接 对 主板 的 RAM 部 分 进行 寻 址 。GART 电路 能 够 使 AGP 卡 比 老 
式 的 PCI 卡 具有 更 高 的 数据 传输 速率 。 然 而 ， 从 内 核 的 观点 看 ， 物 理 存 储 器 位 于 何 处 根 
本 没有 什么 关系 , GART 映 射 的 存储 器 与 其 他 种 类 LO 共享 存储 器 的 处 理 方式 完全 一 样 。 
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设备 驱动 程序 如 何 访问 一 个 IO 共享 存储 器 单元 ? 让 我 们 从 比较 简单 的 PC 体系 结构 开始 
入 手 ， 之 后 再 扩展 到 其 他 体系 结构 。 


不 要 忘 了 内 核 程序 作用 于 线性 地 址 ， 因 此 1/O 共享 存储 器 单元 必须 表示 成 大 于 
PAGE_OFFSET 的 地 址 。 在 后 面 的 讨论 中 , 我 们 假设 PAGE_OFFSET 等 于 0xc0000000， 
也 就 是 说 ， 内 核 线 性 地 址 是 在 第 4 个 GB。 


设备 驱动 程序 必须 把 IO 共享 存储 器 单元 的 物理 地 址 转换 成 内 核 空 间 的 线性 地 址 。 在 PC 
体系 结构 中 , 这 可 以 简单 地 把 32 位 的 物理 地 址 和 0xc0000000 和 常量 进行 或 运算 得 到 。 例 
如 ,假设 内 核 需 要 把 物理 地 址 为 0x000b0fe4 的 LO 单元 的 值 存 放 在 tl 中 ,把 物理 地 址 
为 0xfc000000 的 WO 单元 的 值 存放 在 12 中 。 你 可 能 认为 使 用 下 面 的 表达 式 就 可 以 完成 
这 项 工作 : 


tl = *({unsigned char *) (OUxcoubofe4) ) ; 
t2 = *((unsigned char *) (Oxfc000000)); 


在 初始 化 阶段 , 内 核 已 经 把 可 用 的 RAM 物理 地 址 映射 到 线性 地 址 空间 第 4 个 GB 的 开始 
部 分 。 因 此 ,分 页 单元 把 出 现在 第 一 个 语句 中 的 线性 地 址 0xc00p0fe4 映 射 回 到 原来 的 
1/O 物理 地 址 0x000b0fe4， 这 正好 落 在 从 640KB 到 1MB 的 这 段 “ISA 将 ”中 (请 参看 
第 二 章 的 “Linux 中 的 分 页 ”一 节 )。 这 工作 得 很 好 。 


但 是 , 对 于 第 二 个 语句 来 说 , 这 里 有 一 个 问题 , 因为 其 IO 物理 地 址 超过 了 系统 RAM 的 
最 大 物理 地 址 。 因 此 , 线性 地 址 0xfc000000 就 不 需要 与 物理 地 址 0xfc000000 相 对 应 。 
在 这 种 情况 下 , 为 了 在 内 核 页 表 中 包括 对 这 个 UVO 物理 地 址 进行 映射 的 线性 地 址 ， 必 须 
对 页 表 进 行 修 改 。 这 可 以 通过 调用 ioremap () 或 ioremap_nocache () 国 数 来 实现 。 第 
一 个 函数 与 vmalloc1() 国 数 类 似 ， 都 调用 get_vm_area() 为 所 请 求 的 UVO 共享 存储 器 区 
的 大 小 建立 一 个 新 的 vm_struct 描 述 符 (请 参看 第 八 章 中 的 “ 非 连 续 内 存 器 区 的 描述 符 ” 
一 市 )。 然 后 ， 这 两 个 函数 适当 地 更 新 常规 内 核 页 表 中 的 对 应 页 表 项 。 
ioremap_nocache () 不 同 于 ioremap ()， 因 为 前 者 在 适当 地 引用 再 映射 的 线性 地 址 时 
还 使 硬件 高 速 缓存 内 容 失 效 。 


因此 ， 第 二 个 语句 的 正确 形式 应 该 为 : 


io_mem = lioremap (Oxf:i000000, Ox200000); 
t2 = *{(unsigned char *) (io_mem + 0xl100000) ) 


第 一 条 语句 建立 一 个 2MB 的 新 的 线性 地 址 区 间 , 该 区 间 映 射 了 从 0xfb000000 开 始 的 物 
理 地 址 ， 第 二 条 语句 读 取 地 址 为 0xfc000000 的 内 存单 元 。 设 备 驱 动 程序 以 后 要 取消 这 
种 上 映射， 就 必须 使 用 iounmap(y) 国 数 。 
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在 其 他 体系 结构 (PC 之 外 的 体系 结构 ) 上 , 简单 地 间接 引用 物理 内 存单 元 的 线性 地 址 并 
不 能 正确 访问 WO 共享 存储 器 。 因此, Linux 定 义 了 下 列 依赖 于 体系 结构 的 函数 ， 当 访问 
LO 共享 存储 器 时 来 使 用 它们 : 


readb(), readw(), readl() 

分 别 从 一 个 IO 共享 存储 器 单元 读 取 1、2 或 者 4 个 字 节 
writeb(), writew(), writel() 

分 别 向 一 个 MO 共享 存储 器 单元 写 入 1、2 或 者 4 个 字 贡 
memcpy_fromio(), memcpy_toio!() 


把 一 个 数据 块 从 一 个 VO 共享 存储 器 单元 拷贝 到 动态 内 存 中 , 另 一 个 消 数 正好 相反 
memset _1io() 


用 一 个 固定 的 值 填充 一 个 LO 共享 存储 器 区 域 
因此 ， 对 于 0xfc000000 LI/O 单元 的 访问 推荐 使 用 这 样 的 方法 : 


io mem = ioremap (Oxfb000000, Ox200000); 
t2 = readb(io mem + 0x1000001) ， 


正 是 由 于 这 些 函 数 ， 就 可 以 隐藏 不 同 平台 访问 MO 共享 存储 器 所 用 方法 的 差异 。 


直接 内 存 访 问 (DMA) 


在 最 初 的 PC 体系 结构 中 ，CPU 是 系统 中 唯一 的 总 线 主 控 器 ， 也 就 是 说 ， 为 了 提取 和 存 
储 RAM 存储 单元 的 值 ，CPU 是 唯一 可 以 驱动 地 址 /数据 总 线 的 硬件 设备 。 随 着 更 多 诸 
如 PCI 这 样 的 现代 总 线 体系 结构 的 出 现 ， 如 时 提供 合适 的 电路 , 每 一 个 外 围 设备 都 可 以 
充当 总 线 主 控 器 。 因 此 , 现在 所 有 的 PC 都 包含 一 个 辅助 的 DMA 电路, 它 可 以 用 来 控制 
在 RAM 和 I/O 设 备 之 间 数 据 的 传送 。DMA 一 旦 被 CPU 激活 , 就 可 以 自行 传送 数据 ， 当 
数据 传送 完成 之 后 ，DMA 发 出 一 个 中 断 请 求 。 当 CPU 和 DMA 同时 访问 同一 内 存单 元 
时 ， 所 产生 的 冲突 由 一 个 名 为 内 存 仲裁 器 《参见 第 五 章 中 的 “原子 操作 ”一 节 ) 的 硬件 
电路 来 解决 。 


使 用 DMA 最 多 的 是 磁盘 驱动 器 和 其 他 需要 一 次 传送 大 量 字 节 的 设备 。 因 为 DMA 的 设置 
时 间 相 当 长 ， 所 以 在 传送 数量 很 少 的 数据 时 直接 使 用 CPU 效率 更 高 。 


原来 的 ISA 总 线 所 使 用 的 DMA 电路 非常 复杂 ， 难 于 对 其 进行 编程 ， 并且 限于 物理 内 存 
的 低 16MB。PCI 和 SCSI 总 线 所 使 用 的 最 新 DMA 电路 依靠 总 线 中 的 专用 硬件 电路 ， 这 
就 简化 了 设备 驱动 程序 开发 人 员 的 开发 工作 。 
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同步 DMA 和 异步 DMA 


设备 驱动 程序 可 以 采用 两 种 方式 使 用 DMA, 分 别 是 同步 DMA 和 异步 DMA。 第 一 种 方 
式 ， 数 据 的 传送 是 由 进程 触发 的 ， 而 第 二 种 方式 ， 数 据 的 传送 是 由 硬件 设备 触发 的 。 


采用 同步 DMA 传送 的 例子 如 声卡 ， 它 可 以 播放 电影 音乐 。 用 户 态 应 用 程序 将 声音 数据 
( 称 为 样本 ) 写 入 一 个 与 声卡 的 数字 信号 处 理 器 (DSP) 相对 应 的 设备 文件 中 。 声 卡 的 驱 
动 程序 把 写 入 的 这 些 样本 收集 在 内 核 缓冲 区 中 。 同 时, 驱动 程序 命令 声卡 把 这 些 样本 从 
内 核 缓冲 区 拷贝 到 预先 定时 的 DSP 中 。 当 声卡 完成 数据 传送 时 , 就 会 引发 一 个 中 断 ， 然 
后 驱动 程序 会 检查 内 核 缓 冲 区 是 否 还 有 要 播放 的 样本 ， 如 果 设 有 , 驱动 程序 就 再 启动 一 
次 DMA 数据 传送 。 


采用 异步 DMA 传送 的 例子 如 网 卡 ， 它 可 以 从 一 个 LAN 中 接收 帧 (数据 包 )。 网 卡 将 接 
收 到 的 帧 存储 在 自己 的 LO 共享 存储 器 中 ， 然 后 引发 一 个 中 断 。 其 驱动 程序 确认 该 中 断 
后 ,命令 网 卡 将 接收 到 的 帧 从 IO 共享 存储 器 拷贝 到 内 核 缓冲 区 。 当 数据 传送 完成 后 , 网 
卡 会 引发 新 的 中 断 ， 然 后 驱动 程序 将 这 个 新 帧 通知 给 上 层 内 核 层 。 


DMA 传送 的 辅助 函数 

当 为 使 用 DMA 传送 方式 的 设备 设计 驱动 程序 时 ,开发 者 编写 的 代码 应 该 与 体系 结构 和 
总 线 (就 DMA 传送 方式 来 说 ) 二 者 都 不 相关 。 由 于 内 核 提 供 了 丰富 的 DMA 辅助 函数 ， 
因而 现在 上 述 目标 是 可 以 实现 的 。 这 些 辅助 函数 隐藏 了 不 同 硬件 体系 结构 的 DMA 实现 
机 制 的 差异 。 


这 是 DMA 辅助 函数 的 两 个 子 集 : 老式 的 子 集 为 PCI 设 备 提 供 了 与 体系 结构 无 关 的 国 数 ， 
新 的 子 集 则 保证 了 与 总 线 和 体系 结构 两 者 都 无 关 。 我们 现在 将 介绍 其 中 的 一 些 国 数 ， 同 
时 指出 DMA 的 一 些 硬件 特性 。 


总 线 地 址 


DMA 的 每 次 数据 传送 (至少 ) 需要 一 个 内 存 缓冲 区 ， 它 包含 硬件 设备 要 读 出 或 写 和 的 
数据 。 一 般 而 言 ， 启 动 一 次 数据 传送 前 ,设备 驱动 程序 必须 确保 DMA 电路 可 以 直接 访 
问 RAM 内 存单 元 。 


到 现在 为 止 , 我 们 已 区 分 了 三 类 存储 器 地 址 : 逻辑 地 址 、 线 性 地 址 以 及 物理 地 址 ， 前 两 
个 在 CPU 内 部 使 用 , 最 后 一 个 是 CPU 从 物理 上 驱动 数据 总 线 所 用 的 存储 器 地 址 。 但 是 ， 
还 有 第 四 种 存储 器 地 址 ， 称 为 总 线 地 址 (bus address) ， 它 是 除 CPU 之 外 的 硬件 设备 驱 
动 数据 总 线 时 所 用 的 存储 器 地 址 。 


从 根本 上 说 ， 内 核 为 什么 应 该 关心 总 线 地 址 呢 ? 这 是 因为 在 DMA 操作 中 ， 数 据 传 送 不 
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需要 CPU 的 参与 ，I/O 设备 和 DMA 电路 直接 驱动 数据 总 线 。 因 此 ， 当 内 核 开 始 PDMA 操 
作 时 , 必须 把 所 涉及 的 内 存 缓冲 区 总 线 地 址 或 写 信 DMA 适 当 的 LO 端口 , 或 写 人 IO 设 
备 适 当 的 IO 端口 。 


在 80x86 体 系 结 构 中 ， 总 线 地 址 与 物理 地 址 是 一 致 的 。 然 而 ， 其 他 的 体系 结构 例如 Sun 
公司 的 SPARC 和 HP 的 Alpha 都 包括 一 个 所 谓 的 IO 存储 器 管理 单元 IO-MMU) 的 硬件 
电路 ， 它 类 似 于 微 处 理 器 的 分 页 单元 ， 将 物理 地 址 映射 为 总 线 地 址 。 使 用 DMA 的 所 有 
IO 驱动 程序 在 启动 一 次 数据 传送 前 必须 设置 好 10-MMU。 


不 同 的 总 线 具 有 不 同 的 总 线 地 址 大 小 。 例如 , ISA 的 总 线 地 址 是 24 位 长 , 因此 , 在 80x86 
体系 结构 中 ， 可 以 在 物理 内 存 的 低 16 MB 中 完成 DMA 传送 一 一 这 就 是 为 什么 DMA 
使 用 的 内 存 缓冲 区 分 配 在 ZONE_DMA 内 存 区 中 (设置 了 GFP_DMA 标 志 )。 原来 的 PCI 标 
准 定义 了 32 位 的 总 线 地 址 , 但 是 , 一 些 PCI 硬 件 设备 最 初 是 为 ISA 总 线 而 设计 的 , 因此 
它们 仍然 访问 不 了 物理 地 址 0x00ffffff 以 上 的 RAM 内 存单 元 。 新 的 PCI-X 标准 采用 
64 位 的 总 线 地 址 并 允许 DMA 电路 可 以 直接 寻 址 更 高 的 内 存 。 


在 Linux 中 ， 数 据 类 型 ma_adar_t 代表 一 个 通用 的 总 线 地 址 。 在 80x86 体系 结构 中 ， 
ama_addr 上 对 应 一 个 32 位 长 的 整数 ,除非 内 核 支持 PAE [参见 第 二 章 的 “物理 地 址 扩 
展 (PAE) 分 页 机 制 ”一 节 ] ， 在 这 种 情形 下 ，ama_addr t 代表 一 个 64 位 的 整数 。 


pci_set_qdma_mask() 和 dma_set_mask() 两 个 辅助 函数 用 于 检查 总 线 是 否 可 以 接收 给 
定 大 小 的 总 线 地 址 (mask)， 如 果 可 以 ， 则 通知 总 线 层 给 定 的 外 围 设备 将 使 用 该 大 小 的 
总 线 地 址 。 


高 速 缓存 的 一 致 性 

系统 体系 结构 没有 必要 在 硬件 级 为 硬件 高 速 缓存 与 DMA 电 路 之 间 提 供 一 个 一 致 性 协议 ， 
因此 , 执行 DMA 了 映射 操作 时 , DMA 辅助 函数 必须 考虑 硬件 高 速 缓存 。 为 了 和 弄 清 楚 这 是 
为 什么 , 假设 设备 驱动 程序 把 一 些 数据 填充 到 内 存 缓冲 区 中 , 然后 立刻 命令 硬件 设备 利 
用 DMA 传送 方式 读 取 该 数据 。 如 果 DMA 访问 这 些 物 理 RAM 内 存单 元 , 而 相应 的 硬件 
高 速 缓存 行 的 内 容 还 没有 写 人 RAM 中 ， 那 么 硬件 设备 所 读 取 的 值 就 是 内 存 缓冲 区 中 的 
昌 值 。 


设备 驱动 程序 开发 人 员 可 以 采用 两 种 方法 来 处 理 DMA 缓 促 区 , 他 们 分 别 使 用 两 类 不 同 
的 辅助 函数 来 完成 。 用 Linux 的 术语 来 说 ， 开 发 人 员 在 下 面 两 种 DMA 映射 类 型 中 进行 
选择 


一 致 性 DMA4 觅 娟 
使 用 这 种 映射 方式 时 ,内 核 必 须 保证 内 存 与 硬件 设备 间 高 速 缓 存 一 致 性 不 是 什么 问 
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题 ; 也 就 是 说 CPU 在 RAM 内 存单 元 上 所 执行 的 每 个 写 操作 对 硬件 设备 而 言 都 是 并 

即 可 见 的 ， 反 过 来 也 一 样 。 这 种 映射 方式 也 称 为 “同步 的 ”或 “一 致 的 。 
流 式 DMA 有 映射 

使 用 这 种 映射 方式 时 , 设备 驱动 程序 必须 了 解 高 速 缓存 一 致 性 问题 ,这 可 以 使 用 适 

当 的 同步 辅助 函数 来 解决 。 这 种 映射 方式 也 称 为 “异步 的 ”或 “ 非 一 致 性 的 ”。 


在 80x86 体 系 结构 中 使 用 DMA 时 ， 从 不 存在 高 速 缓存 一 致 性 根本 不 是 什么 问题 ， 因 为 
硬件 设备 驱动 程序 本 身 会 “ 帘 探 ”所 访问 的 硬件 高 速 绥 存 。 因 此 ，80x86 体系 结构 中 为 
硬件 设备 所 设计 的 驱动 程序 会 从 前 述 的 两 种 DMA 映射 方式 中 选择 一 个 : 它们 二 者 在 本 
质 上 是 等 价 的 。 另 一 方面 , 在 诸如 MIPS、SPARC 以 及 PowerPC 的 一 些 模型 等 许多 其 他 
的 体系 结构 中 ,硬件 设备 通常 不 帘 探 硬件 高 速 缓存 ,因而 就 会 产生 高 速 缓存 一 致 性 问题 。 
总 的 来 说 ， 为 与 体系 结构 无 关 的 驱动 程序 选择 一 个 合适 的 DMA 映射 方式 是 很 重要 的 。 


一 般 来 说 , 如果 CPU 和 PDMA 处 理 器 以 不 可 预知 的 方式 去 访问 一 个 缓冲 区 ,那么 必须 强 
制 使 用 一 致 性 DMA 映射 方式 (例如 ，SCSI 适 配器 的 command 数据 结构 的 缓冲 区 ) 。 其 
他 情形 下 , 流 式 DMA 了 映射 方式 更 可 取 , 因为 在 一 些 体系 结构 中 处 理 一 致 性 DMA 了 映射 是 
很 麻烦 的 ， 并 且 可 能 导致 更 低 的 系统 性 能 。 


一 致 性 DMA 映射 的 辅助 函数 


通常 ， 设 备 驱 动 程序 在 初始 化 阶段 会 分 配 内 存 缓冲 区 并 建立 一 致 性 DMA 映射 ， 在 印 载 
时 释放 映射 和 缓冲 区 。 为 了 分 配 内 存 缓冲 区 和 建立 一 致 性 DMA 上 映射， 内核 提 供 了 依赖 
体系 结构 的 pci_alloc_consistent() 和 dma_alloc_coherent () 两 个 国 数 。 它 们 均 返 
回 新 缓冲 区 的 线性 地 址 和 总 线 地 址 。 在 80x86 体 系 结构 中 ,它们 返回 新 缓 促 区 的 线性 地 
址 和 物理 地 址 。 为 了 释放 映射 和 缓 钟 区 ， 内 核 提 供 了 pci_free_consistent () 和 
dma_free_coherent () 两 个 国 数 。 


流 式 DMA 映射 的 辅助 函数 


流 式 DMA 映射 的 内 存 缓冲 区 通常 在 数据 传送 之 前 被 映射 ， 在 传送 之 后 被 取消 映射 。 也 
有 可 能 在 几 次 DMA 传送 过 程 中 保持 相同 的 映射 ,但 是 在 这 种 情况 下 ,设备 驱 动 程序 开 
发 人 员 必 须知 道 位 于 内 存 和 外 围 设备 之 间 的 硬件 高 速 缓存 。 


为 了 启动 一 次 流 式 DMA 数据 传送 ， 驱 动 程序 必须 首先 利用 分 区 页 框 分 配器 (参见 第 八 
童 的 “分 区 页 框 分 配器 ”一 节 ) 或 通用 内 存 分 配器 (参见 第 八 章 的 “通用 对 象 ” 一 市 ) 
来 动态 地 分 配 内 存 缓冲 区 。 然 后 ， 驱 动 程序 调用 pci_map_single() 函数 或 者 
dma_rmap_single() 国 数 建立 流 式 DMA 映射 ， 这 两 个 函数 接收 缓冲 区 的 线性 地 址 作为 其 
参数 并 返回 相应 的 总 线 地 址 .为 了 释放 该 映射 ,驱动 程序 调用 相应 的 pci_ _Single () 
国 数 或 ama_unmap_single() 力 数 。 


IO 体系 结构 和 设备 驱动 程序 549 


为 了 避免 高 速 缓存 一 致 性 问题 ， 驱 动 程序 在 开始 从 RAM 到 设备 的 DMA 数据 传送 之 前 ， 
如 果 有 必要 ,应 该 调用 pci_ama_sync_single_for_qevice() 国 数 或 Gama_sync_single 
for_device() 纯 数 刷 新 与 DMA 缓冲 区 对 应 的 高 速 缓存 行 。 同 样 地 ， 从 设备 到 RAM 的 
一 次 DMA 数据 传送 完成 之 前 设备 驱动 程序 是 不 可 以 访问 内 存 缓冲 区 的 : 相反 ， 如 果 有 
必要 ， 在 读 缓冲 区 之 前 ， 驱 动 程序 应 该 调用 pci_Gma_sync_single_for_cpu() 消 数 或 
dma_sync_single_for_cpu() 图 数 使 相应 的 硬件 高 速 缓存 行 无 效 。 在 80x86 体系 结构 中 ， 
上 述 函 数 几 乎 不 做 任何 事情 ， 因 为 硬件 高 速 缓 存 和 DMA 之 间 的 一 致 性 是 由 硬件 来 维护 
的 。 


即使 是 高 端 内 存 的 缓冲 区 (参见 第 八 章 的 “高 端 内 存 页 框 的 内 核 映 射 ”一 节 ) 也 可 以 用 
于 DMA 传送 ， 开发 人 员 使 用 pci_map_page() 或 dma_map_page() 函 数 , 给 其 传递 的 参 
数 为 缓 名 区 所 在 页 的 描述 符 地 址 和 页 中 缓冲 区 的 偏 移 地 址 。 相 应 地 , 为 了 释放 高 端 内 存 
缓冲 区 的 上 映射， 开发 人 员 使 用 pci_unmap_page () 或 dma_unmap_page() 函 数 。 


内 核 支 持 的 级 别 


Linux 内 核 并 不 完全 支持 所 有 可 能 存在 的 IO 设备 。 一 般 来 说 , 事实 上 有 三 种 可 能 的 方式 
支持 硬件 设备 : 


根本 不 支持 
应 用 程序 使 用 适当 的 in 和 out 汇编 语言 指令 直接 与 设备 的 MO 端口 进行 交互 。 


筷 小 支 桂 
内 核 不 识别 硬件 设备 ,但 能 识别 它 的 VO 接口。 用户 程 序 把 WO 接口 视 为 能 够 读 写 
字符 流 的 顺序 设备 。 

上 六 展 支 村 
内 核 识 别 硬件 设备 ， 并 处 理 UO 接 口 本 身 。 事实 上 , 这 种 设备 可 能 就 没有 对 应 的 设 
备 文件 。 


第 一 种 方式 与 内 核 设 备 驱动 程序 毫 无 关系 , 最 常见 的 例子 是 X Window 系统 对 图 形 显示 
的 传统 处 理 方 式 。 这 种 方法 效率 很 高 ,尽管 它 限制 了 X 服 务 器 使 用 IO 设备 产生 的 硬件 
中 断 。 为 了 让 X 服 务 器 访问 所 请 求 的 IO 端口 ， 这 种 方法 还 需要 做 一 些 其 他 努力 。 正 如 
第 三 章 的 “任务 状态 段 ” 一 节 中 所 介绍 的 那样 ，iopl () 和 ioperm() 系 统 调用 给 进程 授 
权 访 问 IO 端口。 只 有 具有 root 权限 的 用 户 才 可 以 调用 这 两 个 系统 调用 。 但 是 通过 设置 
可 执行 文件 的 setuid 标 志 ， 普通 用 户 也 可 以 使 用 这 些 程序 (参见 第 二 十 章 中 的 “进程 的 
信任 状 和 权能 ”一 节 )。 


新 近 的 Linux 版 本 支持 几 种 广泛 使 用 的 图 形 卡 。 /dev/fb 设 备 文件 为 图 形 卡 的 帧 缓冲 区 提 
供 了 一 种 抽象 ,并 允许 应 用 软件 无 需 知道 图 形 接口 的 VO 端口 的 任何 事情 就 可 以 访问 它 。 
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此 外 ， 内 核 提 供 了 直接 绘制 基本 架构 (Direct Rendering Infrastructure，DRI),，DRI 允 
许 应 用 软件 充分 挖 括 3D 加 速 图 形 卡 的 硬件 特性 。 不管 怎样 ,传统 的 “自己 动手 配置 ”X 
Window 系统 服务 器 还 依然 被 广泛 采用 。 


最 小 支持 方法 是 用 来 处 理 连 接 到 通用 IO 接口 上 的 外 部 硬件 设备 的 。 内 核 通过 提供 设备 
文件 (由 此 而 提供 一 个 设备 驱动 程序 ) 来 处 理 IO 接口 ， 应 用 程序 通过 读 写 设备 文件 来 
处 理 外 部 硬件 设备 。 


最 小 支持 优 于 扩展 支持 , 因为 它 保持 内 核 尽 可 能 小 。 但 是 , 在 基于 PC 的 通用 WO 接口 之 
中 ,只 有 串口 和 并 口 的 处 理 使 用 了 这 种 方法 。 因 此 ,诸如 X 服 务 器 之 类 的 应 用 程序 可 以 
直接 控制 串口 鼠标 , 而 串口 调制 解 调 器 通常 都 需要 一 个 诸如 Minicom、Seyon 或 PPP( 点 
对 点 协议 ) 守护 进程 之 类 的 通信 程序 。 


最 小 支持 的 应 用 范围 是 有 限 的 ,因为 当 外 部 设备 必须 频繁 地 与 内 核 内 部 数据 结构 进行 交 
互 时 不 能 使 用 这 种 方法 。 例 如 ， 考 虑 一 个 连 到 通用 1/0 接口 上 的 可 移动 硬盘 。 应 用 程序 
不 能 和 所 有 的 内 核 数 据 结构 进程 交互 ,也 不 能 与 识别 磁盘 所 需要 的 函数 和 装载 文件 系统 
所 需要 的 函数 进行 交互 ， 因 此 ， 这 种 情况 下 就 必须 使 用 扩展 支持 。 


一 般 情况 下 ， 直 接连 接 到 1O 总 线 上 的 任何 硬件 设备 (如 内 置 硬盘 ) 都 要 根据 扩展 支持 
方法 进行 处 理 : 内 核 必须 为 每 个 这 样 的 设备 提供 一 个 设备 驱动 程序 。 通 用 串 行 总 线 
(CUSB) 、 笔 记 本 电脑 上 的 PCMCIA 接口 或 者 SCSI 接 口 一 一 简 而 言 之 ， 除 串口 和 并 口 
之 外 的 所 有 通用 IO 接口 之 上 连接 的 外 部 设备 都 需要 扩展 支持 。 


值得 注意 的 是 ， 与 标准 文件 相关 的 系统 调用 ， 如 open()、read() 和 write()， 并 不 总 
让 应 用 程序 完全 控制 底层 硬件 设备 。 事 实 上 ，VFS 的 “最 小 公分 母 (lowest-common- 
denominator)” 方 法 没有 包含 某 些 设备 所 需 的 特殊 命令 , 或 不 让 应 用 程序 检查 设备 是 否 
处 于 某 一 特殊 的 内 部 状态 。 


已 51 入 的 ioctl() 系 统 调用 可 以 满足 这 样 的 需要 。 这 个 系统 调用 除了 设备 文件 的 文件 摘 
述 符 和 另 一 个 表示 请 求 的 32 位 参数 之 外 , 还 可 以 接收 任意 多 个 额外 的 参数 。 例 如 , 特殊 
的 ioct1() 请 求 可 以 用 来 获得 CD-ROM 的 音量 或 者 弹出 CD-ROM 介质 。 应 用 程序 可 以 
用 这 类 ioctl() 请 求 提供 一 个 CD 播放 器 的 用 户 接口 。 


字符 设备 驱动 程序 

处 理 字符 设备 相对 比较 容易 ,因为 通常 并 不 需要 复杂 的 缓冲 策略 , 也 不 涉及 磁盘 高 速 缓 
存 。 当 然 ,字符 设备 在 它们 的 需求 方面 有 所 不 同 , 有 些 必须 实现 复杂 的 通信 协议 以 驱动 
硬件 设备 ， 而 有 些 仅仅 需要 从 硬件 设备 的 一 对 1O 端口 读 几 个 值 。 例 如 ， 多 端口 串口 卡 
设备 (一 个 硬件 设备 提供 多 个 串口 ) 的 驱动 程序 比 总 线 鼠 标的 设备 驱动 程序 要 复杂 得 多 。 
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另 一 方面 , 块 设备 驱动 程序 本 身 就 比 字 符 设备 驱动 程序 复杂 得 多 。 事实 上 , 应 用 程序 可 
以 反复 地 要 求 读 或 写 同 一 个 数据 块 。 此 外 ,访问 这 些 设 备 通常 是 很 慢 的 。 这 些 特性 对 磁 
盘 驱 动 程序 的 结构 产生 了 熔 刻 的 影响 。 然而, 就 如 我 们 将 在 下 一 章 看 到 的 ， 内核 提供 了 
诸如 页 面 高 速 缓存 和 块 IO 子 系 统 这 些 高 级 组 件 去 处 理 驱 动 程序 。 在 本 章 剩 下 的 部 分 中 
我 们 把 注意 力 集中 于 字符 设备 驱动 程序 。 


字符 设备 驱动 程序 是 由 一 个 cdev 结 构 描 述 的 ， 其 字段 如 表 13-8 所 示 。 
表 13-8: cdev 结 构 中 的 字段 


类 型 字段 说 明 

struct kobject kobj 内 仍 的 kobjiect 

struct module * owner ”指向 实现 驱动 程序 模块 (如果 有 的 话 ) 的 指针 

struct file operations * OPS 指向 设备 驱动 程序 文件 操作 表 的 指针 

struct list_head list 与 字符 设备 文件 对 应 的 索引 节点 链表 的 头 

dev_t dev 给 设备 驱动 程序 所 分 配 的 初始 主 设备 号 和 次 设 
第 号 

unsigned int count ”给 设备 驱动 程序 所 分 配 的 设备 号 范围 的 大 小 


list 字 段 是 双向 循环 链表 的 首部 ,该 链表 用 于 收集 相同 字符 设备 驱动 程序 所 对 应 的 字符 
设备 文件 的 索引 节点 。 可 能 很 多 设备 文件 具有 相同 的 设备 号 ,并 对 应 于 相同 的 字符 设备 。 
此 外 , 一 个 设备 驱动 程序 对 应 的 设备 号 可 以 是 一 个 范围 ,而 不 仅仅 是 一 个 号 ; 设备 号 位 
于 同一 范围 内 的 所 有 设备 文件 均 由 同一 个 字符 设备 驱动 程序 处 理 。 设 备 号 范围 的 大 小 存 
放 在 count 字段 中 。 


cdev_alloc() 函数 的 功能 是 动态 地 分 配 cqev 描述 符 ， 并 初始 化 内 俯 的 kobject 数据 结 
构 ， 因 此 在 引用 计数 器 的 值 变 为 0 时 会 自动 释放 该 描述 符 。 


cdev_aqdd() 函 数 的 功能 是 在 设备 驱动 程序 模型 中 注册 一 个 cdev 描 述 符 。 它 初始 化 cdev 
描述 符 中 的 dev 和 count 字段 ， 然 后 调用 kobj_map () 国 数 。kopj_map () 则 依次 建立 
设备 驱动 程序 模型 的 数据 结构 ， 把 设备 号 范围 复制 到 设备 驱动 程序 的 描述 符 中 。 


设备 驱动 程序 模型 为 字符 设备 定义 了 一 个 kobject 映 射 域 , 该 映射 域 由 一 个 kobj_map 类 
型 的 描述 符 描述 ,并 由 全 局 变量 caev_map 引用 。kobj_map 描 述 符 包 括 一 个 散 列表 , 它 
有 255 个 表 项 ,并 由 0~255 范围 的 主 设备 号 进行 索引 。 散 列表 存放 probe 类 型 的 对 象 ， 
每 个 对 象 都 拥有 一 个 已 注册 的 主 设备 号 和 次 设备 号 ， 其 中 各 字段 如 表 13-9 所 示 。 
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表 13-9: probe 对 象 中 的 字段 


类 型 字段 说 明 

struct probe * next 散 列 冲突 链表 中 的 下 一 个 元 素 

dev_t dev 设备 号 范围 的 初始 设备 号 ( 主 、 次 设备 号 ) 
unsigned long range 设备 号 范围 的 大 小 

struct module * owner ”如 果 有 的 话 ， 指 向 实现 设备 驱动 程序 模块 的 指针 
struct kobject *(*) get 探 副 谁 拥有 这 个 设备 号 范围 


(dev _t, int *，Vvold *) 
int (*) {dev_t, void *) lock 增加 设备 号 范围 内 拥有 者 的 引用 计数 器 
void * data 设备 号 范围 内 拥有 者 的 私有 数据 


调用 kobj_map() 函 数 时 ， 把 指定 的 设备 号 范围 加 入 到 散 列表 中 。 相 应 的 probe 对 象 的 
data 字 段 指 向 设备 驱动 程序 的 cdev 描 述 符 。 执 行 get 和 1ock 方 法 时 把 data 字 段 的 值 
传递 给 它们 。 在 这 种 情况 下 ，get 方 法 通过 一 个 简捷 函数 实现 , 其 返回 值 为 cdev 描 述 符 
中 内 和 骨 的 kobject 数 据 结构 的 地 址 , 相反 ，1lock 方 法 本 质 上 用 于 增加 内 嵌 的 kobject 数 据 
结构 的 引用 计数 器 的 值 。 


kobj_lookup () 函数 接收 kobject 映射 域 和 设备 号 作为 输入 参数 ， 它 搜索 散 列 表 ， 如 果 
找到 ， 则 返回 该 设备 号 所 在 范围 的 拥有 者 的 kobject 的 地 址 。 当 这 个 函数 应 用 到 字符 设 
备 的 映射 域 时 ， 就 返回 设备 驱动 程序 描述 符 cdev 中 所 嵌入 的 kobject 的 地 址 。 


分 配 设 备 号 


为 了 记录 目前 已 经 分 配 了 哪些 字符 设备 号 ， 内核 使 用 散 列 表 chrdevs, 表 的 大 小 不 超过 
设备 号 范围 。 两 个 不 同 的 设备 号 范围 可 能 共享 同一 个 主 设备 号 , 但 是 范围 不 能 重 又 ， 因 
此 它们 的 次 设备 号 应 该 完全 不 同 。chraevs 包 含 255 个 表 项 ， 由 于 散 列 函数 屏 项 了 主 设 
备 号 的 高 四 位 一 一 因此 , 主 设备 号 的 个 数 少 于 255 个 , 它们 被 散 列 到 不 同 的 表 项 中 。 每 
个 表 项 指向 冲突 链表 的 第 一 个 元 素 , 而 该 链表 是 按 主 、 次 设备 号 的 递增 顺序 进行 排序 的 。 


冲突 链表 中 的 每 个 元 素 是 一 个 char_device_struct 结构 ， 其 各 字段 如 表 13-10 所 示 。 





表 13-10: char_device_struct 描 述 符 中 的 字段 


类 型 字段 说 明 
unslgnedq char device struct * next 指向 散 列 仲 突 链表 中 下 一 个 元 素 的 指针 
unsigned int major 设备 号 范围 内 的 主 设备 号 


和 
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表 13-10: char_device_struct 描 述 符 中 的 字段 ( 续 ) 


类 型 字段 说 明 

int minorct 设备 号 范围 的 大 小 

GONnst Char 并 name 处 理 设备 号 范围 内 的 设备 驱动 程序 的 名 称 
struct file operations * fops 设 有 使 用 

SEruct Cae * cdev 指向 字符 设备 驱动 程序 描述 符 的 指针 


本 质 上 可 以 采用 两 种 方法 为 字符 设备 驱动 程序 分 配 一 个 范围 内 的 设备 号 .所 有 新 的 设备 
驱动 程序 使 用 第 一 种 方法 ， 该 方法 使 用 register_chraev_region() 国 数 和 
alloc_chrdev_region() 函数 为 驱动 程序 分 配 任意 冰 围 内 的 设备 号 ,例如 , 为 了 获得 从 
dev (类 型 为 dev_t) 开始 的 大 小 为 size 的 一 个 设备 号 范围 


register_chraqev_regionldqev，sSize，"foo") ; 


上 述 函 数 并 不 执行 cdaev_aqd() ， 因 此 设备 驱动 程序 在 所 要 求 的 设备 号 范围 被 成 功 分 配 
时 必须 执行 cdev_add() 函数 。 


第 二 种 方法 使 用 register_chraqev() 国 数 , 它 分 配 一 个 国定 的 设备 号 范围 , 该 范围 包含 
唯一 一 个 主 设备 号 以 及 0~255 的 次 设备 号 。 在 这 种 情形 下 ， 设 备 驱 动 程序 不 必 调 用 
cqev_addq1() 国 数 。 


register _chrdev_region() 函 数 和 alloc_chrdev_region() 函 数 
register_chrdev_region() 轰 数 接收 三 个 参数 ; 初始 的 设备 号 ( 主 设备 号 和 次 设备 
号 ) 、 请 求 的 设备 号 范围 大 小 《与 次 设备 号 的 大 小 一 样 ) 以 及 这 个 范围 内 的 设备 号 对 应 
的 设备 驱动 程序 的 名 称 , 该 函数 检查 请 求 的 设备 号 范围 是 否 跨越 一 些 次 设备 号 ,如 果 是 ， 
则 确定 其 主 设备 号 以 及 覆盖 整个 区 间 的 相应 设备 号 范围 ， 然后 , 在 每 个 相应 设备 号 范围 
上 调用 __register_chrdev_region() 国 数 (参见 下 文 )。 


alloc_chraev_region() 国 数 与 register_chrdaqev_region() 相 似 ， 但 它 可 以 动态 地 
分 配 一 个 主 设备 号 ; 因此 ， 该 函数 接收 的 参数 为 设备 号 范围 内 的 初始 次 设备 号 、 范 围 的 
大 小 以 及 设备 驱动 程序 的 名 称 , 结 束 时 它 也 调用 _ _register_chraev_region() 国 数 。 


register_chraqev_region() 国 数 执行 以 下 步骤 ; 


1. 分 配 一 个 新 的 char_device_struct 结构 ， 并 用 0 填充 。 
2. ”如 果 设 备 号 范围 内 的 主 设备 号 为 0, 那么 设备 驱动 程序 请 求 动态 分 配 一 个 主 设备 号 。 
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函数 从 散 列 表 的 末尾 表 项 开始 继续 向 后 寻找 一 个 与 尚未 使 用 的 主 设备 号 对 应 的 空 冲 
突 链表 (NULL 指针 )。 若 疫 有 找到 空 表 项 ， 则 返回 一 个 错误 码 〈 注 6)。 


初始 化 char_dqevice_struct 结 构 中 的 初始 设备 号 .范围 大 小 以 及 设备 驱动 程序 名 称 。 
执行 散 列 消 数 计算 与 主 设备 号 对 应 的 散 列 表 索 引 ，。 


裔 历 冲 突 链表 ,为 新 的 char_device_struct 结 构 寻 找 正确 的 位 置 。 同时 ,如果 找 
到 与 请 求 的 设备 号 范围 重合 的 一 个 范围 ， 则 返回 一 个 错误 码 。 


将 新 的 char_device_struct 措 述 符 树 入 冲突 链表 中 。 
返回 新 的 char_device_struct 描述 符 的 地 址 。 


register_chrdev() 函 数 


驱动 程序 使 用 register_chrqev{() 国 数 时 需要 一 个 老式 的 设备 号 范围 : 一 个 单独 的 主 设 
备 号 和 0~255 的 次 设备 号 范围 。 该 函 数 接收 的 参数 为 : 请 求 的 主 设备 号 major (如 果 是 
0 则 动态 分 配 )、 设 备 驱 动 程序 的 名 称 name 和 一 个 指针 fops ( 它 指 向 设备 号 范围 内 的 特 
定 字 符 设备 文件 的 文件 操作 表 )。 该 销 数 执行 下 列 操作 


|. 


调用 __register_chrdev_region () 国 数 分 配 请 求 的 设备 号 范围 。 如 果 返 回 一 个 
错误 码 (不 能 分 配 该 范围 ) ， 范 数 将 终止 运行 。 


为 设备 驱动 程序 分 配 一 个 新 的 cdev 结构 。 
初始 化 cdev 结构 : 


a， 将 内 榴 的 kobject 类 型 设置 为 ktype_cdev_dynamic 类 型 的 描述 符 ( 参 见 前 面 的 
“kobject” 一 节 )。 


b. 将 owner 字 段 设 置 为 fops->owner 的 内 容 。 

c. 将 ops 字段 设置 为 文件 操作 表 的 地 址 fops。 

d， 将 设备 驱动 程序 的 名 称 拷 贝 到 内 伐 的 kobject 结构 里 的 name 字段 中 。 
调用 cdev_ada() 函 数 (在 前 面 解释 过 )。 


将 __register_chraqev_region() 国 数 在 第 1 步 中 返回 的 char_device_struct 
描述 符 的 cdev 字段 设置 为 设备 驱动 程序 的 caev 描述 符 的 地 址 。 


6. 返回 分 配 的 设备 号 范围 的 主 设备 号 。 


汪 6: 


注意 ,内核 可 以 动态 分 配 一 个 小 于 255 的 主 设备 号 ， 而 且 在 某 些 情况 下 ， 即 使 存在 一 个 
小 于 255 的 未 被 使 用 的 主 设备 号 ,分 配 也 可 能 失败 。 我 们 可 以 期 待 将 来 会 改变 这 种 限制 。 
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访问 字符 设备 驱动 程序 

我 们 在 “设备 文件 的 VFS 处 理 ” 一 节 中 曾 提 到 ， 由 open() 系统 调用 服务 例 程 触发 的 
dentry_open() 函数 定制 字符 设备 文件 的 文件 对 象 的 f_op 字段 ， 以 使 它 指向 
def_chr_fops 表 。 这 个 表 几 平 为 空 ， 它 仅仅 定义 了 chrdev_open() 函 数 作 为 设备 文件 
的 打开 方法 。 这 个 方法 由 dentry_open() 直 接 调用 。 


chrqev_open () 国 数 接收 的 参数 为 索引 节点 的 地 址 inode、 指 向 所 打开 文件 对 象 的 指针 
filp。 本 质 上 它 执行 以 下 操作 : 


1. 检查 指向 设备 驱动 程序 的 cqev 描述 符 的 指针 ijnode->i_cdev。 如 果 该 字段 不 为 
空 , 则 inode 结 构 已 经 被 访问 ; 增加 cqaev 描 述 符 的 引用 计数 器 值 并 跳 转 到 第 6 步 。 

2. 调用 kobj_lookup () 国 数 搜索 包括 该 设备 号 在 内 的 范围 。 如 果 该 范围 不 存在 ， 则 
返回 一 个 错误 码 ;， 否则 ， 国 数 计算 与 该 范围 相对 应 的 cdev 描述 符 的 地 址 。 

3. 将 inode 对 象 的 inode->i_caqev 字 段 设 置 为 cqaev 描述 符 的 地 址 。 

4. 将 inoqe->i_cindqex 字 段 设 置 为 设备 驱动 程序 的 设备 号 范围 内 的 设备 号 的 相关 索 
引 《设备 号 范围 内 的 第 一 个 次 设备 号 的 索引 值 为 0， 第 二 个 为 1， 依 此 类 推 ) 。 

5. ”将 inode 对 象 加 入 到 由 cdev 描述 符 的 1ist 字段 所 指 同 的 链表 中 。 

6. 将 filp->f_ops 文 件 操作 指针 初始 化 为 cdaev 描述 符 的 ops 字段 的 值 。 


7. 如 果 定 义 了 filp->f_ops->open 方 法 ，chraqaev_open () 国 数 就 会 执行 该 方法 。 若 
设备 驱动 程序 处 理 一 个 以 上 的 设备 号 , 则 chrdev_open () 一 般 会 再 次 设置 file 对 象 
的 文件 操作 ， 这 样 可 以 为 所 访问 的 设备 文件 安装 合适 的 文件 操作 。 


8. 成功 时 返回 0 结束。 


字符 设备 的 缓冲 策略 

传统 的 类 Unix 操 作 系统 把 硬件 设备 划分 为 块 设备 和 字符 设备 。 但 是 , 这 种 分 类 并 不 能 说 
明 整 个 事实 。 某 些 设备 在 一 次 单独 的 VO 操作 中 能 够 传送 大 量 的 数据 ,而 有 些 设备 则 只 
能 传送 几 个 字符 。 


例如 ，PS/2 鼠标 驱动 程序 在 每 次 读 操 作 中 获得 几 个 字 市 一 一 它们 对 应 鼠标 按钮 的 状态 
和 屏幕 上 鼠标 的 指针 。 这 种 设备 是 最 容易 处 理 的 。 首 先 从 设备 的 输入 寄存 器 中 一 次 读 一 
个 字符 的 输入 数据 ,并 存放 在 合适 的 内 核 数据 结构 中 , 然后 ,在 空闲 时 把 这 个 数据 拷贝 
到 进程 的 地 址 空间 。 同 理 , 把 输出 数据 首先 从 进程 的 地 址 空间 拷贝 到 合适 的 内 核 数据 结 
构 中 ， 然 后 ， 再 一 次 一 个 字符 地 写 到 IO 设备 的 输出 寄存 器 。 显 然 ， 这 种 设备 的 1/O 驱 
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动 程序 没有 使 用 DMA ， 因 为 CPU 建立 DMA 1/O 操作 所 花费 的 时 间 跟 把 数据 移 到 IO 
端口 所 花费 的 时 间 差 不 多 。 


男 一 方面 ,内核 也 必须 准备 处 理 在 每 次 1/0 操作 中 产生 大 量 字 节 的 设备 ， 这些 设备 或 者 


是 诸如 声卡 或 网 卡 的 顺序 设备 , 或 者 是 诸如 各 类 磁盘 (软盘 、 光 盘 、SCSI1 磁 盘 等 ) 的 随 
机 访问 设备 。 

例如 , 假定 你 已 经 为 自己 的 计算 机 配置 了 声卡 ， 以 便 能 够 录 下 来 自 麦 克 风 的 声音 。 声 卡 
以 固定 的 频率 (比如 说 44.14 kHz) 对 来 自 麦 克 风 的 电信 和 号 进行 采样 ， 并 产生 一 个 16 位 


数 的 输入 数据 块 的 流 。 声 卡 驱 动 程序 必须 能 处 理 所 有 可 能 情况 下 这 种 蜂拥 而 至 的 数据 ， 
即使 当 CPU 暂时 忙于 运行 某 个 其 他 进程 也 不 例外 。 


这 可 以 结合 两 种 不 同 的 技术 做 到 : 


。 ”使 用 DMA 方式 传送 数据 块 。 


。 ”运用 两 个 或 多 个 元 素 的 循环 缓冲 区 , 每 个 元 素 具 有 一 个 数据 块 的 大 小 。 当 一 个 中 斯 
(发 送 一 个 信号 表明 新 的 数据 块 已 被 读 入 ) 发 生 时 ， 中 断 处 理 程 序 把 指针 移 到 循环 
缓冲 区 的 下 一 个 元 素 , 以 便 将 来 的 数据 会 存放 在 一 个 空 元 素 中 。 相反, 只 要 驱动 程 
序 把 数据 成 功 地 拷贝 到 用 户 地 址 空间 , 就 释放 循环 缓冲 区 中 的 元 素 , 以 便 用 它 来 保 
存 从 硬件 设备 传送 来 的 新 数据 。 


循环 缓冲 区 的 作用 是 消除 CPU 负载 的 峰值 ,即使 接收 数据 的 用 户 态 应 用 程序 因为 其 他 高 
优先 级 任务 而 慢 下 来 ，DMA 也 要 能 够 继续 填充 循环 缓冲 区 中 的 元 素 ， 因 为 中 断 处 理 程 
序 代 表 当 前 运行 的 进程 执行 。 


当 接 收 来 自 网 卡 的 数据 包 时 有 类 似 的 情况 发 生 , 只 是 在 这 种 情况 下 , 进入 的 数据 流 都 是 
异步 的 。 数据 包 被 互相 独立 地 接收 , 且 两 个 连续 的 数据 包 之 间 到 达 的 时 间 间 隔 是 不 可 预 
测 的 。 


总 而 言 之 , 顺序 设备 的 缓冲 区 是 容易 处 理 的 , 因为 同一 缓冲 区 从 不 会 被 重用 : 音频 应 用 
程序 不 能 要 求 麦克 风 重新 传送 同一 数据 块 。 


我 们 将 在 第 十 五 章 中 看 到 对 随机 访问 设备 〈 各 种 各 样 的 磁盘 ) 进行 缓冲 是 相当 复杂 的 。 
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块 议 备 驱 动 程序 








本 章 主 要 讨论 块 设备 (例如 各 类 磁盘 ) 的 IO 驱动 程序 。 块 设备 的 主要 特点 是 ，CPU 和 
总 线 读 写 数据 所 花 时 间 与 磁盘 硬件 的 速度 不 匹配 。 块 设备 的 平均 访问 时 间 很 高 。 每 个 操 
作 都 需要 几 个 毫秒 才能 完成 ,主要 是 因为 磁盘 控制 器 必须 在 磁盘 表面 将 磁头 移动 到 记录 
数据 的 确切 位 置 。 但 是 ， 当 磁头 到 达 正 确 位 置 时 ， 数 据 传送 就 可 以 稳定 在 每 秒 儿 十 MB 
的 速率 。 

Linux 块 设备 处 理 程 序 的 组 织 是 相当 复杂 的 。 我 们 不 可 能 对 内 核 的 块 设 备 MO 子 系统 中 包 
含 的 所 有 函数 都 进行 详细 讨论 ; 但 是 ,我们 会 提纲 者 领地 介绍 一 般 软件 体系 结构 。 与 前 
一 章 一 样 ,我 们 的 目标 是 描述 Linux 如 何 支 持 各 种 块 设备 驱动 程序 的 实现 ， 而 不 只 说 明 
如 何 实现 一 个 具体 的 驱动 程序 。 

我 们 将 在 “ 块 设备 的 处 理 ” 一 节 首 先 说 明 Linux 块 设 备 MO 子 系统 的 一 般 体系 结构 。 然 
后 将 在 “通用 块 层 ”、 LI/O 调度 程序 ” 和“ 块 设备 驱动 程序 ”这 几 节 中 描述 块 设备 MO 子 
系统 的 主要 组 件 。 在 最 后 的 “打开 块 设备 文件 ”一 五 中 ,我 们 简要 地 介绍 一 下 打开 一 个 
块 设备 文件 时 内 核 所 执行 的 步骤 。 


块 设 备 的 处 理 
块 设备 驱动 程序 上 的 每 个 操作 都 涉及 很 多 内 核 组 件 ， 其 中 最 重要 的 一 些 如 图 14-1 所 示 ， 


例如 , 我 们 假设 一 个 进程 在 某 个 磁盘 文件 上 发 出 一 个 zead () 系统 调用 一 一 我 们 将 会 看 
到 处 理 write 请 求 本 质 上 采用 同样 的 方式 。 下 面 是 内 核对 进程 请 求 给 予 回应 的 一 般 步 最， 
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图 14-1: 一 个 块 设备 操作 所 涉及 的 内 核 组 件 


1. ”read() 系 统 调用 的 服务 例 程 调用 一 个 适当 的 YFS 函数 ,将 文件 描述 符 和 文件 内 的 
偏 移 量 传递 给 它 ,。 虚拟 文件 系统 位 于 块 设备 处 理 体系 结构 的 上 层 , 它 提供 一 个 通用 
的 文件 模型 ，Linux 支持 的 所 有 文件 系统 均 采 用 该 模型 。 我 们 在 第 十 二 章 已 经 详细 
介绍 了 人 EG 层 ， 


2.， VFS 函数 确定 所 请 求 的 数据 是 否 已 经 存在 , 如 果 有 必要 的 话 , 它 决定 如 何 执 行 read 
操作 。 有 时候 没有 必要 访 同 磁盘 上 的 数据 , 因为 内 核 将 大 多 数 最 近 从 块 设备 读 出 或 
写 入 其 中 的 数据 保存 在 RAM 中 。 第 十 五 草 介 绍 了 磁盘 高 速 缓存 机 制 ， 而 第 十 六 草 
详细 说 明了 YFS 如 何 处 理 磁盘 操作 以 及 如 何 与 磁盘 高 速 缓存 和 文件 系统 交互 。 
3 我 们 假设 内 核 从 块 设备 读数 据 ， 那 么 它 就 必须 确定 数据 的 物理 位 置 。 为 了 做 到 这 
点 ， 内 核 依 赖 映 射 层 (mapping layer)， 主 要 执行 下 面 两 步 : 
a. ”内核 确定 该 文件 所 在 文件 系统 的 块 大 小 ,并 根据 文件 块 的 大 小 计算 所 请 求 数 据 
的 长 度 。 本 质 上 , 文件 被 看 作 拆 分 成 许多 块 ， 因此 内 核 确定 请 求 数据 所 在 的 块 
号 (文件 开始 位 置 的 相对 索引 )。 
b. 接 下 来 , 映射 层 调用 一 个 有 具体 文件 系统 的 函数 ， 它 访问 文件 的 磁盘 节点 ,然后 
根据 逻辑 块 号 确定 所 请 求 数据 在 磁盘 上 的 位 置 。 事实 上 , 磁盘 也 被 看 作 拆 分 成 
许多 块 , 因此 内 核 必须 确定 存放 所 请 求 数据 的 块 对 应 的 号 ( 磁 检 或 分 区 开始 位 
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置 的 相对 索引 )。 由 于 一 个 文件 可 能 存储 在 磁盘 上 的 不 连续 块 中 ,因此 存放 在 磁 
盘 索 引 节 点 中 的 数据 结构 将 每 个 文件 块 号 映射 为 一 个 逻辑 块 号 ( 注 1)。 


我 们 将 在 第 十 六 章 中 说 明 映 射 层 的 功能 ,在 第 十 八 章 中 将 介绍 一 些 典 型 的 磁盘 文件 系统 。 


现在 内 核 可 以 对 块 设备 发 出 读 请 求 。 内 核 利用 通用 块 层 (generic block Inyer) 局 
动 IO 操作 来 传送 所 请 求 的 数据 。 一 般 而 言 ， 每 个 IO 操作 只 针对 磁盘 上 一 组 连续 
的 块 。 由 于 请 求 的 数据 不 必 位 于 相 邻 的 块 中 , 所 以 通用 块 层 可 能 局 动 几 次 IO 操作 。 
每 次 1O 操作 是 由 一 个 “ 块 IO ” (简称 “bio ) 结构 描述 ， 它 收集 底层 组 件 需 要 的 
所 有 信息 以 满足 所 发 出 的 请 求 。 


通用 块 层 为 所 有 的 块 设备 提供 了 一 个 抽象 视图 ， 因 而 隐藏 了 硬件 块 设备 间 的 差异 
性 。 几乎 所 有 的 块 设备 都 是 磁盘 , 所 以 通用 块 层 也 提供 了 一 些 通用 数据 结构 来 描述 
“磁盘 ”或 “磁盘 分 区 ”。 我 们 将 在 本 章 的 “通用 块 层 ” 一 市 中 讨论 通用 块 层 和 bio 
数据 结构 。 

通用 块 层 下 面 的 “LIO 调度 程序 ”根据 预先 定义 的 内 核 策略 将 待 处 理 的 MO 数据 传 
送 请 求 进行 归 类 。 调 度 程 序 的 作用 是 把 物理 介质 上 相 邻 的 数据 请 求 聚集 在 一 起 。 我 
们 将 在 本 章 后 面 的 “1/O 调度 程序 ”一 节 中 介绍 调度 程序 。 

最 后 , 块 设备 驱动 程序 癌 磁 盘 控 制 普 的 硬件 接口 发 送 适 当 的 命令 , 从 而 进行 实际 的 
数据 传送 。 我 们 将 在 后 面 的 “ 块 设备 驱动 程序 ”一 节 介 绍 通用 块 设 备 驱动 程序 的 总 
体 组 织 结构 。 


如 你 所 见 , 块 设备 中 的 数据 存储 涉及 了 许多 内 核 组 件 ; 每 个 组 件 采用 不 同 长 度 的 块 来 管 
理 磁盘 数据 : 


渤 1: 


硬件 块 设备 控制 器 采用 称 为 “局 区 ”的 固定 长 度 的 块 来 传送 数据 。 因 此 ，L/O 调度 
程序 和 块 设备 驱动 程序 必须 管理 数据 局 区 。 


虚拟 文件 系统 、 映 射 层 和 文件 系统 将 磁盘 数据 存放 在 称 为 “ 块 ” 的 逻辑 单元 中 。 一 
个 块 对 应 文件 系统 中 一 个 最 小 的 磁盘 存储 单元 。 


我 们 很 快 会 看 到 , 块 设备 驱动 程序 应 该 能 够 处 理 数 据 的 “ 段 ”": 一 个 段 就 是 一 个 内 
存 页 或 内 存 页 的 一 部 分 ， 它 们 包含 磁盘 上 物理 相 邻 的 数据 块 。 


磁盘 高 速 缓存 作用 于 磁盘 数据 的 “页 上 ， 每 页 正好 装 在 一 个 页 框 中 。 


通用 块 层 将 所 有 的 上 层 和 下 层 的 组 件 组 合 在 一 起 , 因此 它 了 解数 据 的 局 区 块 、 段 
以 及 页 。 





但 是 ， 如 果 是 从 原始 块 设备 文件 进行 读 访问 ， 映射 层 就 不 调用 具体 文件 系统 的 方法 ,而 
是 把 块 设备 文件 中 的 偏 移 量 转换 成 在 磁盘 或 在 对 应 该 设备 文件 的 磁盘 分 区 中 的 位 置 。 
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即使 有 许多 不 同 的 数据 块 ， 它 们 通常 也 是 共享 相同 的 物理 RAM 单元 。 例 如， 图 14-2 显 
示 了 一 个 具有 4096 字 市 的 页 的 构造 。 上 层 内 核 组 件 将 页 看 成 是 由 4 个 1024 字 市 组 成 的 
块 缓冲 区 。 块 设备 驱动 程序 正在 传送 页 中 的 后 3 个 块 ,因此 这 3 块 被 插入 到 涵盖 了 后 3072 
字 市 的 段 中 。 硬 盘 控 制 器 将 该 段 看 成 是 由 6 个 512 字 市 的 局 区 组 成 。 
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图 14-2: 包含 磁盘 数据 的 页 的 典型 构造 


本 章 我 们 介绍 处 理 块 设备 的 下 层 内 核 组 件 : 通用 块 层 、IO 调度 程序 以 及 块 设备 驱动 程 
序 ， 因 此 我 们 将 注意 力 集 中 在 局 区 、 块 和 段 上 。 


扇 区 
为 了 达到 可 接受 的 性 能 , 硬盘 和 类 似 的 设备 快速 传送 几 个 相 邻 字 布 的 数据 。 块 设备 的 每 
次 数据 传送 操作 都 作用 于 一 组 称 为 局 区 的 相 邻 字 节 ,在 下 面 的 讨论 中 , 我 们 假定 字 布 按 
相 邻 的 方式 记录 在 磁盘 表面 , 这 样 一 次 搜索 操作 就 可 以 访 同 到 它们 。 尽管 磁盘 的 物理 构 
造 很 复杂 ， 但 是 硬盘 控制 给 接收 到 的 命令 将 磁盘 看 成 一 大 组 扇 区 。 


在 大 部 分 磁盘 设备 中 ， 书 区 的 大 小 是 512 字 市 , 但 是 一 些 设备 使 用 更 大 的 局 区 〈1024 和 
2048 字 节 ) 。 注 意 ， 应 该 把 扇 区 作为 数据 传送 的 基本 单元 ; 不 允许 传送 少 于 一 个 展区 的 
数据 ， 尽 管 大 部 分 磁盘 设备 都 可 以 同时 传送 几 个 相 邻 的 局 区 。 


在 Linux 中 ， 扇 区 大 小 按 惯例 都 设 为 5312 字 有 ;如 果 一 个 块 设备 使 用 更 大 的 忆 区 ， 那 么 
相应 的 底层 块 设备 驱动 程序 将 做 些 必要 的 变换 。 因此, 对 存放 在 块 设 备 中 的 一 组 数据 是 
通过 它们 在 磁盘 上 的 位 置 来 标识 ， 即 其 首 个 512 字 节 遍 区 的 下 标 以 及 扇 区 的 数目 。 扇 区 
的 下 标 存放 在 类 型 为 sector_ 的 32 位 或 64 位 的 变量 中 。 


块 设备 驱动 程序 >01 


块 


遍 区 是 硬件 设备 传送 数据 的 基本 单位 , 而 块 是 VFS 和 文件 系统 传送 数据 的 基本 单位 。 例 
如 , 内 核 访 问 一 个 文件 的 内 容 时 , 它 必 须 首 先 从 磁盘 上 读 文件 的 磁盘 索引 布点 所 在 的 块 
(参见 第 十 二 章 的 “索引 节点 对 象 ” 一 节 ) 。 该 块 对 应 磁盘 上 一 个 或 多 个 相 邻 的 局 区 ， 而 
VFS 将 其 看 成 是 一 个 单一 的 数据 单元 。 


在 Linux 中 ， 块 大 小 必须 是 2 的 笑 ， 而 且 不 能 超过 一 个 页 框 。 此 外 ， 它 必须 古 忆 区 大 小 
的 整数 倍 ， 因 为 每 个 块 必须 包含 整数 个 扁 区 。 因 此 , 在 80 x 86 体 系 结构 中 ， 人 允许 块 的 
大 小 为 512、1024、2048 和 4096 字 节 。 


块 设备 的 块 大 小 不 是 唯一 的 。 创 建 一 个 磁盘 文件 系统 时 ,管理 员 可 以 选择 合适 的 块 大 小 。 
因此 , 同一 个 磁盘 上 的 几 个 分 区 可 能 使 用 不 同 的 块 大 小 。 此 外 ,对 块 设备 文件 的 每 次 读 
或 写 操作 是 一 种 “原始 ”访问 ， 因 为 它 绕 过 了 磁盘 文件 系统 ， 内 核 通 过 使 用 最 大 的 块 
(4096 字 节 ) 执行 该 操作 。 


每 个 块 都 需要 自己 的 块 缓冲 区 ， 它 是 内 核 用 来 存放 块 内 容 的 RAM 内 存 区 。 当 内 核 从 磁 
盘 读 出 一 个 块 时 , 就 用 从 硬件 设备 中 所 获得 的 值 来 填充 相应 的 块 缓冲 区 ， 同样 ， 当 内 核 
向 磁盘 中 写 入 一 个 块 时 ,就 用 相关 块 缓冲 区 的 实际 值 来 更 新 硬件 设备 上 相应 的 一 组 相 邻 
字 节 。 块 缓冲 区 的 大 小 通常 要 与 相应 块 的 大 小 相 匹 配 。 


缓冲 区 首部 是 一 个 与 每 个 缓冲 区 相关 的 puffer_head 类 型 的 描述 符 。 它 包含 内 核 处 理 缓 
冲 区 需要 了 解 的 所 有 信息 ，; 因此 , 在 对 每 个 缓冲 区 进行 操作 之 前 ， 内核 都 要 首先 检查 其 
缓冲 区 首部 。 我们 将 在 第 十 五 章 中 详细 介绍 缓冲 区 首部 中 的 所 有 字段 值 , 但 是 在 本 章 中 
我 们 仅仅 介绍 其 中 的 一 些 字段 : b_ page、b_aqata、b_blocknr 和 Pb_bqaev。 


b_page 字 段 存 放 的 是 块 缓冲 区 所 在 页 框 的 页 描述 符 地 址 。 如 果 页 框 位 于 高 端 内 存 中 , 那 
么 b_qdata 字 段 存 放 页 中 块 缓冲 区 的 偏 移 量 ， 否则，b_qata 存 放 块 缓冲 区 本 身 的 起 始 线 
性 地 址 。b_blocknr 字 段 存放 的 是 逻辑 块 号 (例如 磁盘 分 区 中 的 块 索引 )。 最 后 , b_bdev 
字段 标识 使 用 缓冲 区 首部 的 块 设备 (参见 本 章 后 面 的 “ 块 设备 ”一 节 )。 


段 


我 们 知道 对 磁盘 的 每 个 VO 操作 就 是 在 磁盘 与 一 些 RAM 单 元 之 间 相 互 传送 一 些 相 邻 矶 区 
的 内 容 。 大 多 数 情况 下 ,磁盘 控制 器 直接 采用 DMA 方 式 进行 数据 传送 [参见 第 十 三 章 中 
的 “直接 内 存 访问 (DMA)" 一 节 ]。 块 设备 驱动 程序 只 要 向 磁盘 控制 器 发 送 一 些 适当 的 
命令 就 可 以 触发 一 次 数据 传送 ,一旦 完成 数据 的 传送 , 控制 如 就 会 发 出 一 个 中 断 通知 块 
设备 驱动 程序 。 


562 第 十 四 章 


DMA 方式 传送 的 是 磁盘 上 相 邻 饥 区 的 数据 。 这 是 一 个 物理 约束 : 磁盘 控制 器 允许 DMA 
传送 不 相 邻 的 扇 区 数据 ， 但 是 这 种 方式 的 传送 速率 很 低 ， 因 为 在 磁盘 表面 上 移动 读 / 写 
磁头 是 相当 慢 的 。 


老式 的 磁盘 控制 器 仅仅 支持 “简单 的 ”DMA 传送 方式 : 在 这 种 传送 方式 中 ， 磁 盘 必 须 
与 RAM 中 的 连续 内 存单 元 相互 传送 数据 。 但 是 , 新 的 磁盘 控制 器 也 支持 所 谓 的 分 散 - 聚 
集 (scatter-gather) DMA 传送 方式 : 此 种 方式 中 , 磁盘 可 以 与 一 些 非 连续 的 内 存 区 相互 
传送 数据 。 


启动 一 次 分 散 -聚集 DMA 传送 ， 块 设备 哎 动 程序 需要 向 磁盘 控制 器 发 送 : 


。 ”要 传送 的 起 始 磁盘 扁 区 号 和 总 的 局 区 数 
。 ”内 存 区 的 描述 符 链表 ， 其 中 链表 的 每 项 包含 一 个 地 址 和 一 个 长 度 


磁盘 控制 器 负责 整个 数据 传送 ， 例 如， 在 读 操 作 中 控制 器 从 相 邻 磁盘 局 区 中 获得 数据 ， 
然后 将 它们 存放 到 不 同 的 内 存 区 中 。 


为 了 使 用 分 散 - 京 集 DMA 传 送 方式 , 块 设备 驱动 程序 必须 能 够 处 理 称 为 段 的 数据 存储 单 
元 ,一 个 段 就 是 一 个 内 存 页 或 内 存 页 中 的 一 部 分 ,它们 包含 一 些 相 邻 磁盘 忆 区 中 的 数据 。 
因此 ， 一 次 分 散 -聚集 PDMA 操作 可 能 同时 传送 几 个 段 。 


注意 , 块 设备 驱动 程序 不 需要 知道 块 、 块 大 小 以 及 块 缓冲 区 。 因 此 ， 即 使 高 层 将 段 看 成 
是 由 几 个 块 缓冲 区 组 成 的 页 ， 块 设备 驱动 程序 也 不 用 对 此 给 予 关 注 。 


正如 我 们 所 见 ， 如 果 不 同 的 段 在 RAM 中 相应 的 页 框 正好 是 连续 的 并 且 在 磁盘 上 相应 的 
数据 块 也 是 相 邻 的 , 那么 通用 块 层 可 以 合并 它们 。 通过 这 种 合并 方式 产生 的 更 大 的 内 存 
区 就 称 为 物理 段 。 


然而 ， 在 多 种 体系 结构 上 还 允许 使 用 另 一 个 合并 方式 : 通过 使 用 一 个 专门 的 总 线 电路 
[如 IO-MMU， 参见 第 十 三 章 中 的 “直接 内 存 访问 (DMA)” 一 节 ] 来 处 理 总 线 地 址 与 
物理 地 址 间 的 映射 。 通过 这 种 合并 方式 产生 的 内 存 区 称 为 硬件 段 。 由 于 我 们 将 注意 力 集 
中 在 80 x 86 体 系 结构 上 ， 它 在 总 线 地 址 和 物理 地 址 之 间 不 存在 动态 的 映射 ， 因 此 在 本 
章 剩 余部 分 我 们 假定 硬件 段 总 是 对 应 物理 段 。 


通用 块 层 
通用 块 层 是 一 个 内 核 组 件 , 它 处 理 来 自 系统 中 的 所 有 块 设备 发 出 的 请 求 。 由 于 该 层 所 提 
供 的 函数 ， 内 核 可 以 容易 地 做 到 ， 
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将 数据 缓冲 区 放 在 高 端 内 存 一 一 仅 当 CPU 访问 其 数据 时 ， 才 将 页 框 映 射 为 内 核 
中 的 线性 地 址 空间 ， 并 在 数据 访问 完 后 取消 映射 。 


通过 一 些 附加 的 手段 , 实现 一 个 所 谓 的 “ 零 一 复制 ”模式 , 将 磁盘 数据 直接 存放 在 
用 户 态 地 址 空间 而 不 是 首先 复制 到 内 核 内 存 区 ,事实 上 , 内 核 为 IO 数据 传送 使 用 
的 缓冲 区 所 在 的 页 框 就 映射 在 进程 的 用 户 态 线性 地 址 空间 中 。 

管理 逻辑 卷 , 例如 由 LVM (逻辑 卷 管理 器 ) 和 RAID (廉价 磁盘 元 余 阵 列 ) 使 用 的 
逻辑 卷 : 几 个 磁盘 分 区 , 即使 位 于 不 同 的 块 设备 中 , 也 可 以 被 看 作 是 一 个 单一 的 分 
区 。 

发 挥 大 部 分 新 磁盘 控制 器 的 高 级 特性 , 例如 大 主板 磁盘 高 速 缓存 、 增 强 的 DMA 性 
能 、LO 传送 请 求 的 相关 调度 等 等 。 


结构 


通用 块 层 的 核心 数据 结构 是 一 个 称 为 bio 的 描述 符 ， 它 描述 了 块 设备 的 1/0 操作 。 每 个 
bio 结构 都 包含 一 个 磁盘 存储 区 标识 符 〈 存 储 区 中 的 起 始 马 区 号 和 遍 区 数目 ) 和 一 个 或 
多 个 描述 与 IO 操作 相关 的 内 存 区 的 段 。bio 由 bio 数据 结构 描述 ， 其 各 字段 如 表 14-1 


所 示 。 


表 14-1: bio 结构 中 的 字段 


类 型 


Sector _t 


struct bio * 


struct block device * 


unsigned long 
unsigned long 
unsigned short 
unsigned Short 
unsigned short 
unsigned short 
unsigned int 
unsigned int 
nsigned int 
unsigned int 


struct bio vec * 


字段 


bi_sector 
bi_next 

bi_bdev 

bi_flags 

bli_rw 

bi_vcnt 

Di. idx 
bi_phys_segments 
bi_hw_segqments 
bi_size 
bi_hw_front_size 
bi_hw back_size 
bi_max_vecs 


bi_io_ vec 


说 明 

块 /0 操作 的 第 一 个 磁盘 扁 区 

链接 到 请 求 队列 中 的 下 一 个 bio 

指向 块 设 备 描述 符 的 指针 

bio 的 状态 标志 

IO 操作 标志 

bio 的 bio_vec 数组 中 段 的 数目 

bio 的 bio_vec 数组 中 段 的 当前 索引 值 
合并 之 后 bio 中 物理 段 的 数目 

合并 之 后 硬件 段 的 数目 
需要 传送 的 字 节 数 
硬件 段 合并 算法 使 用 
硬件 段 合 并 算法 使 用 

bio 的 bio_vec 数组 中 允许 的 最 大 段 数 
指向 bio 的 bio_vec 数组 中 的 段 的 指针 
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表 14-1: bio 结构 中 的 字段 ( 续 ) 


类 型 字段 说 明 

bio end io t * bi_end_ io bio 的 LO 操作 结束 时 调用 的 方法 

Eee Bi ent bio 的 引用 计数 器 

Vola bi_private 通用 块 层 和 块 设备 驱动 程序 的 MO 完成 方法 
使 用 的 指针 

bio destructor t * bi_ destructor 释放 bio 时 调用 的 析 构 方法 (通常 是 


bio_destructor() 方 法 ) 





bio 中 的 每 个 段 是 由 一 个 bio_vec 数据 结构 描述 的 ， 其 中 各 字段 如 表 14-2 所 示 。bio 中 
的 bi_io_vec 字段 指向 bio_vec 数据 结构 的 第 一 个 元 素 ，bi_vcnt 字段 则 存放 了 
bio_vec 数组 中 当前 的 元 素 个 数 。 


表 14-2: bio_vec 结构 中 的 字段 


类 型 字段 说 明 

Struct page * bv_page 指向 段 的 页 框 中 页 描述 符 的 指针 
unsigned int bv_len 段 的 字 节 长 度 

unsigned int bv_offset 页 框 中 段 数 据 的 偏 移 量 





在 块 1/O 操 作 期 间 bio 描 述 符 的 内 容 一 直 保 持 更 新 。 例如， 如 果 块 设备 驱动 程序 在 一 次 
分 散 - 聚集 DMA 操作 中 不 能 完成 全 部 的 数据 传送 ， 那 么 bio 中 的 bi_idx 字段 会 不 断 更 
新 来 指向 待 传送 的 第 一 个 段 。 为 了 从 索引 bi_idx 指向 的 当前 段 开 始 不 断 重 复 bio 中 的 
段 ， 设 备 有 驱动 程序 可 以 执行 宏 bio_for_each_segment。 


当 通 用 块 层 启 动 一 次 新 的 LO 操作 上 时， 调用 bio_alloc() 函 数 分 配 一 个 新 的 bio 结构 。 
通常 ，bio 结构 是 由 slab 分 配器 分 配 的 ， 但 是 ， 当 内 存 不 足 时 ， 内 核 也 会 使 用 一 个 备用 
的 bio 小 内 存 池 (参见 第 八 章 的 “内 存 池 ”一 节 )。 内 核 也 为 bio_vec 结构 分 配 内 存 池 
一 一 毕竟 , 分 配 一 个 bio 结 构 而 不 能 分 配 其 中 的 段 描述 符 也 是 没有 什么 意义 的 。 相 应 地 ， 
bio_puc () 国 数 减少 bio 中 引用 计数 器 (bi_cnt) 的 值 ， 如 果 该 值 等 于 0， 则 释放 bio 结构 
以 及 相关 的 bio_vec 结构 。 


磁盘 和 磁盘 分 区 的 表示 


磁盘 是 一 个 由 通用 块 层 处 理 的 逻辑 块 设备 。 通常 一 个 磁盘 对 应 一 个 硬件 块 设备 , 例如 硬 
盘 、 软 盘 或 光盘 。 但 是 , 磁盘 也 可 以 是 一 个 虚拟 设备 ， 它 建立 在 几 个 物理 磁盘 分 区 之 上 
或 一 些 RAM 专用 页 中 的 内 存 区 上 。 在 任何 情形 中 ,借助 通用 块 层 提供 的 服务 ， 上 层 内 
核 组 件 可 以 以 同样 的 方式 工作 在 所 有 的 磁盘 上 。 
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磁盘 是 由 gendisk 对 象 描述 的 ， 


表 14-3: gendisk 对 象 中 的 字段 
类 型 


char [32] 


struct hd struct ** 


Struct 


block_Qevice operations * 


Struct request queue * 


VOld * 
Sector t 
int 


char [64] 
ijnt 


Struct device * 


Struct kobject 


struct timer rand state * 


int 
Atomic t 


unsigned long 
unsigned long 
i 


struct disk stats * 
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其 中 各 字段 如 表 14-3 所 示 。 


major 
first _ minor 
minors 


disk_name 


part 


fops 

queue 
private_data 
capacity 
fljags 
devfs_ name 
number 
driverfs_dev 


kobj 


random 


PoOlicCy 
SYynNC_io 


stamp 
stamp_idl 
In tiight 


dkstats 


说 明 

Major 磁盘 主 设备 号 

与 磁盘 关联 的 第 一 个 次 设备 号 
与 磁盘 关联 的 次 设备 号 范围 


磁盘 的 标准 名 称 ( 通 常 是 相应 设备 文 
件 的 规范 名 称 ) 


磁盘 的 分 区 描述 符 数 组 
指向 块 设备 操作 表 的 指针 


指向 磁盘 请 求 队列 的 指针 (参见 本 章 
后 面 的 “请 求 队列 描述 符 ” 一 节 ) 
块 设备 驱动 程序 的 私有 数据 
磁盘 内 存 区 的 大 小 【局 区 数目 ) 

摘 述 磁盘 类 型 的 标志 【〈 见 下 文 ) 
devfs 特殊 文件 系统 (现在 已 不 赞成 
使 用 ) 中 的 设备 文件 名 称 

不 再 使 用 

指向 磁盘 的 硬件 设备 的 device 对 象 
的 指针 (参见 第 十 三 章 的 “设备 驱动 
程序 模型 的 组 件 ” 一 节 ) 

内 购 的 kobject 结 构 (参见 第 十 三 章 
的 “kobject” 一 节 ) 

该 指针 指 同 的 这 个 数据 结构 记录 磁盘 
中 断 的 定时 ;由 内 核 内 置 的 随机 数 发 
生 帮 使 用 


如 果 磁 盘 是 只 读 的 ， 则 置 为 1 ( 写 操 
作 禁 止 )， 否 则 为 0 

写 人 磁盘 的 局 区 数 计数 器 ， 仅 为 
RAID 使 用 


统计 磁盘 队列 使 用 情况 的 时 间 恰 
同上 

正在 进行 的 IO 操作 数 

统计 每 个 CPU 使 用 磁盘 的 情况 
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flags 字 段 存 放 了 关于 磁盘 的 信息 。 其 中 最 重要 的 标志 是 GENHD_FL_UP: 如 果 设 置 它 ， 
那么 磁盘 将 被 初始 化 并 可 以 使 用 。 另 一 个 相关 的 标志 是 GENHD_FL_REMOVABLE, 如 果 
是 诸如 软盘 或 光盘 这 样 可 移动 的 磁盘 ， 那 么 就 要 设置 该 标志 。 


gendqisk 对 象 的 fops 字 段 指 向 一 个 表 block_qevice_operations， 该 表 为 块 设 备 的 主 
要 操作 存放 了 几 个 定制 的 方法 (如 表 14-4 所 示 )。 


表 14-4: 块 设备 的 方法 


方法 触发 事件 

open 打开 块 设备 文件 

release 关闭 对 块 设备 文件 的 最 后 一 个 引用 

ioct1 在 块 设备 文件 上 发 出 ioctl () 系 统 调用 (使 用 大 内 核 锁 ) 
compat_ioct1 在 块 设备 文件 上 发 出 ioct1 () 系 统 调用 (不 使 用 大 内 核 锁 ) 
media_changed 检查 可 移动 介质 是 否 已 经 变化 (例如 软盘 ) 
revalidate_disk 检查 块 设备 是 否 持 有 有 效 数 据 


通常 硬盘 被 划分 成 几 个 逻辑 分 区 。 每 个 块 设 备 文件 要 么 代表 整个 磁盘 , 要 么 代表 磁盘 中 
的 某 一 个 分 区 。 例 如 ， 一 个 主 设备 号 为 3、 次 设备 号 为 0 的 设备 文件 /dev/hda 代表 的 可 
能 是 一 个 主 EIDE 磁盘 ， 该 磁盘 中 的 前 两 个 分 区 分 别 由 设备 文件 /dev/hdal 和 /dev/hda2 
代表 ， 它 们 的 主 设备 号 都 是 3, 而 次 设备 号 分 别 为 1 和 2。 一般 而 言 , 磁盘 中 的 分 区 是 由 
连续 的 次 设备 号 来 区 分 的 。 


如 果 将 一 个 磁盘 分 成 了 几 个 分 区 , 那么 其 分 区 表 保 存在 ha_struct 结 构 的 数组 中 , 该 数 
组 的 地 址 存放 在 gendisk 对 象 的 part 字段 中 。 通 过 磁盘 内 分 区 的 相对 索引 对 该 数组 进 
行 索 引 。hqg_struct 描述 符 中 的 字段 如 表 14-5 所 示 。 


表 14-5: hd_struct 描述 符 中 的 字段 


类 型 字段 说 明 

sector 七 start_sect 磁盘 中 分 区 的 起 始 遍 区 

sector_t nr_sects 分 区 的 长 度 〈 遍 区 数 ) 

struct kobject kob] 内 修 的 kobject (参见 第 十 三 童 的 “kobject" 一 节 ) 
unsigned 1int reads 对 分 区 发 出 的 读 操 作 次 数 

unsigned int read_ sectors 从 分 区 读 取 的 局 区 数 

unsigned int writes 对 分 区 发 出 的 写 操 作 次 数 


unsigned int write_sectors ” 写 进 分 区 的 遍 区 数 
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表 14-5: hd_struct 描述 符 中 的 字段 ( 续 ) 


类 型 字段 说 明 
int policy 如 果 分 区 是 只 读 的 ， 则 置 为 1!， 否 则 为 0 
int partno 磁盘 中 分 区 的 相对 索引 


当 内 核发 现 系统 中 一 个 新 的 磁盘 时 (在 启动 阶段 , 或 将 一 个 可 移动 介质 插入 一 个 驱动 器 
中 时 ,或 在 运行 期 附加 一 个 外 置式 磁盘 时 ) ， 就 调用 alloc_dqisk() 国 数 ， 该 函数 分 配 并 
初始 化 一 个 新 的 gendaisk 对 象 , 如 果 新 磁盘 被 分 成 了 几 个 分 区 , 那么 alloc_qdisk() 还 
会 分 配 并 初始 化 一 个 适当 的 ha_struct 类 型 的 数组 。 然 后 ， 内 核 调用 add_disk() 函数 
将 新 的 gendisk 对 象 插入 到 通用 块 层 的 数据 结构 中 (参见 本 章 后 面 的 “注册 和 初始 化 设 
备 驱 动 程序 ”一 节 )。 


提交 请 求 
我 们 介绍 一 下 当 向 通用 块 层 提交 一 个 VO 操作 请 求 时 ,内核 所 执行 的 步骤 顺序 。 我 们 假 
设 被 请 求 的 数据 块 在 磁盘 上 是 相 邻 的 ， 并 且 内 核 已 经 知道 了 它们 的 物理 位 置 。 


第 一 步 是 执行 bio_alloc() 国 数 分 配 一 个 新 的 bio 描述 符 。 然 后 ， 内 核 通 过 一 些 字 
段 值 来 初始 化 bio 描述 符 : 


。 将 bi_sector 设 为 数据 的 起 始 遍 区 号 (如 果 块 设备 分 成 了 几 个 分 区 , 那么 扇 区 号 是 
相对 于 分 区 的 起 始 位 置 的 ) 。 

。 将 bi_size 设 为 涵盖 整个 数据 的 局 区 数目 。 

。 ”将 bi_bdev 设 为 块 设备 描述 符 的 地 址 (参见 本 章 后 面 的 “ 块 设 备 ” 一 节 )。 

。 将 bi_io_vec 设 为 bio_vec 结 构 数 组 的 起 始 地 址 , 数组 中 的 每 个 元 素描 述 了 1/O 操 
作 中 的 一 个 段 (内 存 缓存 )， 此 外 ， 将 bi_vcnt 设 为 bio 中 总 的 段 数 。 

。 “将 bi_rw 设 为 被 请 求 操作 的 标志 。 其 中 最 重要 的 标志 指明 数据 传送 的 方向 : READ 
(0) 或 WRITE (1)。 

。 将 bi_end_io 设 为 当 bio 上 的 WO 操作 完成 时 所 执行 的 完成 程序 的 地 址 。 


一 旦 bio 描述 符 被 进行 了 适当 的 初始 化 , 内 核 就 调用 generic_make_request () 销 数 , 它 
是 通用 块 层 的 主要 入 口 点 。 该 国 数 主要 执行 下 列 操作 : 


1. 检查 bio->bi_sector 没 有 超过 块 设备 的 遍 区 数 。 如 果 超 过 , 则 将 bio->bi_flags 
设置 为 BIO_EOF 标 志 ， 然 后 打印 一 条 内 核 错 误 信 息 , 调用 bio_endqio() 国 数 ， 并 
终止 。bio_enqio() 更 新 bio 描述 符 中 的 bi_ size 和 bi _ sector 值 ， 然 后 调用 bio 
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的 bi_enqa_io 方 法 。bi_end_io 国 数 的 实现 本 质 上 依赖 于 触发 IO 数 据 传 送 的 内 核 
组 件 ， 我 们 将 在 下 面 的 章节 中 看 到 Pi_end._io 方法 的 一 些 例子 。 

2. 获取 与 块 设备 相关 的 请 求 队列 S (参见 本 章 后面 的 “请 求 队列 描述 符 ” 一 节 )， 其 
地 址 存放 在 块 设备 描 述 符 的 bG_disk 字 7 段 中 , 其 中 的 每 个 元 素 由 bio->bi_bdev 指 
加 。 

3. “调用 block_wait_queue_running() 国 数 检查 当前 正在 使 用 的 MO 调度 程序 是 否 可 
以 被 动态 取代 : 若 可 以 , 则 让 当前 进程 睡眠 直到 启动 一 个 新 的 IO 调度 程序 (参见 
下 一 布 “LO 调度 程序 ”)。 

4. 调用 blk_partiticn_remap() 国 数 检 查 块 设备 是 否 指 的 是 一 个 磁盘 分 区 (bio-> 
bi_bdev 不 等 于 bio->bi_dev->bqd_contains; 参见 本 章 后 面 的 “ 块 设备 ”一 节 )。 如 
果 是 ， 则 从 bio->bi_bdev 歼 取 分 区 的 hd_struct 描 述 符 ， 从 而 执行 下 面 的 子 操作 : 


a. 根据 数据 传送 的 方向 ,更 新 hd_struct 瓜 述 符 中 的 read_sectors 和 reads 值 ， 


或 write_sectors 和 writes 值 。 


b.， 调整 bio->bi_sector 值 使 得 把 相对 于 分 区 的 起 始 遍 区 号 转变 为 相对 于 整个 磁 
盘 的 局 区 号 。 


c. 将 bio->bi_bdev 设置 为 整个 磁盘 的 块 设 备 扒 述 符 (bio->bd_contains)，。 
从 现在 开始 ， 通 用 块 层 、LO 调度 程序 以 及 设备 驱动 程序 将 忘记 磁盘 分 区 的 存在 ， 
直接 作用 于 整个 磁盘 。 

5. 调用 q->make_request_fn 方法 将 bio 请求 插 入 请 求 队列 gq 中 。 

6. 返回 。 


在 本 章 后 面 的 “向 WO 调度 程序 发 出 请 求 ” 一 节 中 我 们 将 讨论 make_request_fn 方 法 典 
型 实现 。 


I/ 〇 调度 程序 


虽然 块 设备 驱动 程序 一 次 可 以 传送 一 个 单独 的 遍 区 , 但 是 块 MO 层 并 不 会 为 磁盘 上 每 个 
被 访问 的 局 区 都 单独 执行 一 次 MO 操作 ,这 会 导致 磁盘 性 能 的 下 降 ， 因 为 确定 磁盘 表面 
上 局 区 的 物理 位 置 是 相当 费时 的 。 取而代之 的 是 , 只 要 可 能 ,内核 就 试图 把 几 个 局 区 合 
并 在 一 起 ， 并 作为 一 个 整体 来 处 理 ， 这 样 就 减少 了 磁头 的 平均 移动 时 间 。 


当 内 核 组 件 要 读 或 写 一 些 磁盘 数据 时 ， 实 际 上 创建 一 个 块 设备 请 求 。 从 本 质 上 说 ， 请 求 
质 述 的 是 所 请 求 的 局 区 以 及 要 对 它 执行 的 操作 类 型 〈 读 或 写 ) 。 然 而 ， 并 不 是 请 求 一 发 
出 ,内 核 就 满足 它 一 一 WO 操作 仅仅 被 调度 ,执行 会 向 后 推迟 。 这 种 人 为 的 延迟 是 提高 
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块 设备 性 能 的 关键 机 制 。 当 请 求 传送 一 个 新 的 数据 块 时 , 内 核 检 查 能 否 通过 稍微 扩展 前 
一 个 一 直 处 于 等 待 状态 的 请 求 而 满足 新 请 求 (也 就 是 说 , 能 否 不 用 进一步 的 寻 道 操作 就 
能 满足 新 请 求 ) 。 由 于 磁盘 的 访问 大 都 是 顺序 的 ， 因 此 这 种 简单 机 制 就 非常 高 效 。 


延迟 请 求 复杂 化 了 块 设备 的 处 理 。 例 如 , 假设 某 个 进程 打开 了 一 个 普通 文件 ,然后 , 文 
件 系统 的 驱动 程序 就 要 从 磁盘 读 取 相 应 的 索引 市 点 。 块 设备 驱动 程序 把 这 个 请 求 加 入 一 
个 队列 ,并 把 这 个 进程 挂 起 ， 直 到 存放 索引 市 点 的 块 被 传送 为 止 。 然 而 , 块 设备 驱动 程 
序 本 身 不 会 被 阻 寒 ， 因 为 试图 访问 同一 磁盘 的 任何 其 他 进程 也 可 能 被 阻塞 。 


为 了 防止 块 设备 驱动 程序 被 挂 起 ,每 个 VO 操作 都 是 异步 处 理 的 。 特 别 是 块 设备 驱动 程 
序 是 中 断 驱 动 的 (参见 第 十 三 章 的 “监控 1O 操 作 ” 一 节 );: 通用 块 层 调用 1/O 调度 程序 
产生 一 个 新 的 块 设备 请 求 或 扩展 一 个 已 有 的 块 设备 请 求 , 然后 终止 。 随 后 激活 的 块 设备 
欧 动 程序 会 调用 一 个 所 谓 的 策略 例 程 《strare8gy routine) 选择 一 个 待 处 理 的 请 求 ， 并 向 
磁盘 控制 器 发 出 一 条 适当 的 命令 来 满足 这 个 请 求 。 当 LO 操作 终止 时 ,磁盘 控制 器 就 产 
生 一 个 中 断 , 如果 需要 , 相应 的 中 断 处 理 程序 就 又 调用 策略 例 程 去 处 理 队 列 中 的 另 一 个 
请 求 。 


每 个 块 设备 驱动 程序 都 维持 着 自己 的 请 求 队列 , 它 包 含 设备 待 处 理 的 请 求 链 表 。 如果 磁 
盘 控 制 器 正在 处 理 几 个 磁盘 , 那么 通常 每 个 物理 块 设备 都 有 一 个 请 求 队列 。 在 每 个 请 求 
队列 上 单独 执行 IO 调度 ， 这 样 可 以 提高 磁盘 的 性 能 。 


请 求 队列 描述 符 
请 求 队列 是 由 一 个 大 的 数据 结构 request_queue 表示 的 ， 其 字段 如 表 14-6 所 示 。 


表 14-6: 请 求 队列 描述 符 中 的 字段 


类 型 字段 说 明 

struct list_head queue_heaq 待 处 理 请 求 的 链表 

struct request * last_merge 指向 队列 中 首先 可 能 合并 的 请 求 描述 符 

elevator t * elevator 指向 elevator 对 象 的 指针 (参见 后 面 的 
“LO 调度 算法 ”一 市 ) 

Struct request. St ‘rg 为 分 配 请 求 描述 符 所 使 用 的 数据 结构 

request_fn proc * request_fn 实现 驱动 程序 的 策略 例 程 人 口 点 的 方法 


merge_request_fn * back_merge_fn 检查 是 省 可 能 将 bio 合并 到 请 求 队列 的 最 
后 一 个 请 求 中 的 方法 

merge_request_fn * front_merge_fn 检查 是 否 可 能 将 bio 合并 到 队列 的 第 一 个 

请 求 中 的 方法 。 
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表 14-6， 请 求 队列 描述 符 中 的 字段 ( 续 ) 


类 型 


merge_requests fn * 


make request fn * 


prep_ rq fn > 


unplug_fn 六 


merge bvec fn * 


activity_fn > 


1ssue flush fn * 


struct timer list 


unsignedqd long 


Struct work_struct 


Struct 
backing_dev_info 
VOid * 
VELd. 各 


unsigned long 


int 

unsigned long 
Spinlock t * 
struct kobject 


unsigned long 





字段 


merge_requests_fn 
make_request_fn 


prep_rg_ fn 


unplug_fn 


merge_bvec_fn 


activity_fn 


issue filush fn 


unplug_timer 


unplug_thresh 


unplug_delay 


unplug_work 


backing_dev_info 


queuedata 
activity._data 


bounce_pfn 


bounce_gfp 
queue_flags 
ueue_ lock 
kob] 


nr_requests 
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说 明 

试图 合并 请 求 队列 中 两 个 相 邻 请 求 的 方法 
将 一 个 新 请 求 插 人 和 人 请求 队列 时 调用 的 方法 
该 方法 把 这 个 处 理 请 求 的 命令 发 送 给 硬件 
设备 

去 掉 块 设备 的 方法 【参见 本 章 后 面 的 “ 激 
活 块 设备 驱动 程序 ”一 节 ) 

当 增 加 一 个 新 段 时 , 该 方法 返回 可 插入 到 
某 个 已 存在 的 bio 结构 中 的 字 节 数 (通常 
未 定义 ) 

将 某 个 请 求 加 入 请 求 队列 时 调用 的 方法 
(通常 未 定义 ) 

刷新 请 求 队列 时 调用 的 方法 (还 过 连续 处 
理 所 有 的 请 求 清空 队列 ) 

插入 设备 时 使 用 的 动态 定时 器 (参见 后 面 
的 “激活 块 设备 驱动 程序 ”一 刷 ) 

如 果 请 求 队列 中 待 处 理 请 求 数 大 于 该 值 ， 
将 立即 去 掉 请 求 设 备 〈 缺 省 值 是 4) 

去 掉 设 备 之 前 的 时 间 延 迟 〈 缺 省 值 是 
3ms) 


去 掉 设备 时 使 用 的 操作 队列 (参见 后 面 的 
“激活 块 设 备 驱 动 程序 ”一 市 ) 


参见 本 表 后 面 的 正文 


指向 块 设备 驱动 程序 的 私有 数据 的 指针 
activity_fn 方 法 使 用 的 私有 数据 

在 大 于 该 页 框 号 时 必须 使 用 缓冲 区 回 弹 
(参见 本 章 前 面 的 “提交 请 求 ”一 市 ) 
回 弹 缓冲 区 的 内 存 分 配 标志 

描述 请 求 队 列 状态 的 标志 

指向 请 求 队列 锁 的 指针 

请 求 队列 的 内 册 kobject 结构 

请 求 队列 中 允许 的 最 大 请 求 数 
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表 14-6: 请 求 队列 描述 符 中 的 字段 ( 续 ) 


类 型 


unsigneda 


unsigned 


unsigned 


unsigned 


unsigneq 


unsigneqd 


unsigneq 


unsigneqd 


int 


int 


int 


short 


short 


short 


short 


short 


nsigned int 


unsigned 


unsigned 


struct 


Atomijc 七 
unsigned 


unsigneqd 


unsignea 


struct list _ head 


long 


int 


int 


int 


int 


字段 


nr_congestion_on 


nr-congestion-off 


nr_batching 


max Sectors 


max_hw_sectors 


max_phys_segments 


max_hw_segqments 


hardsect_size 


max._ segment_size 


Seg_boundary_mask 


dma_alignment 


aqueue_ tags 


refcnt 
in_flight 


Sg_timeout 


sg_reserved size 


drain_list 


271 


说 明 

如 果 待 处 理 请 求 数 超出 了 该 国 值 , 则 认为 
该 队列 是 拥挤 的 

如 果 待 处 理 请 求 数 在 这 个 国 值 的 范围 内 ， 
则 认为 该 队列 是 不 拥挤 的 

即使 队列 已 注 ， 仍 可 以 由 特殊 进程 
“batcher” 提 交 的 待 处 理 请 求 的 最 大 值 
(通常 为 32) 

单个 请 求 所 能 处 理 的 最 大 局 区 数 (可 调 
的 ) 

单个 请 求 所 能 处 理 的 最 大 遍 区 数 ( 硬 约 
束 ) 

单个 请 求 所 能 处 理 的 最 大 物理 段 数 


单个 请 求 所 能 处 理 的 最 大 硬 段 数 〈 分 散 - 
聚集 DMA 操作 中 的 最 大 不 同 内 存 区 数 ) 


局 区 中 以 字 节 为 单位 的 大 小 
物理 段 的 最 大 长 度 〈 以 字 刷 为 单位 ) 
段 合并 的 内 存 边 界 屏蔽 字 

DMA 缓冲 区 的 起 始 地 址 和 长 度 的 对 齐 位 
图 〈 缺 省 值 是 511) 

空闲 / 忙 标记 的 位 图 (用 于 带 标记 的 请 求 ) 
blk queue tag * 

请 求 队列 的 引用 计数 器 

请 求 队列 中 待 处 理 请 求 数 

用 户 定义 的 命令 超时 ( 仅 由 SCSI 通 用 块 
设备 使 用 ) 

基本 上 没有 使 用 

临时 延 时 的 请 求 链 表 的 首部 ， 直 到 WO 调 
度 程序 被 动态 取代 


实质 上 , 请 求 队 列 是 一 个 双向 链表 , 其 元 素 就 是 请 求 描 述 符 (也 就 是 request 数据 结构 ， 
参见 下 一 节 )。, 请 求 队列 描述 符 中 的 queue_head 字 段 存放 链表 的 头 (第 一 个 伪 元 素 ) ,而 
请 求 描述 符 中 queuelist 字 段 的 指针 把 任 一 请 求 链接 到 链表 的 前 一 个 和 后 一 个 元 素 之 间 。 
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队列 链表 中 元 素 的 排序 方式 对 每 个 块 设备 驱动 程序 是 特定 的 ， 然而，1/O 调度 程序 提供 
了 几 种 预先 确定 好 的 元 素 排序 方式 ， 这 将 在 后 面 的 “LO 调度 算法 ”一 市 中 讨论 。 


backing_qev_info 字 段 是 一 个 backing_aqev_info 类 型 的 小 对 象 ， 它 存放 了 关于 基本 
硬件 块 设备 的 IO 数据 流量 的 信息 。 例如， 它 保 存 了 关于 预 读 以 及 关于 请 求 队列 拥塞 状 


态 的 信息 。 


请 求 描述 符 


每 个 块 设备 的 待 处 理 请 求 都 是 用 一 个 请 求 描 述 符 来 表示 的 ， 请 求 描述 符 存 放 在 如 表 14- 
7 所 示 的 request 数据 结构 中 。 


表 14-7: 请 求 描述 符 的 字段 


类 型 

struct list_head 
unsigned long 
Sector_t 
unsigned long 
unsigned int 
Sector_t 


unsigned long 
unsigned int 


Struct bio 六 
struct bio 六 
VO1Q * 


1nt 


struct gendisk * 


1int 


unsigned long 
unsigned ‘short 


unsigned short 


字段 


queuelist 

flags 

Sector 

nr_sectors 
current nr _sectors 
hargd_sector 


hard nr_sectors 
hard_ cur_ sectors 


bio 
biotail 
elevator_private 


rgq_status 


rq_disk 


Errors 


start_ time 
nr_phys_segqments 


nr_hw_segments 


请 求 的 硬 段 数 


说 明 

请 求 队列 链表 的 指针 

请 求 标 志 (参见 下 面 ) 

要 传送 的 下 一 个 扇 区 号 

整个 请 求 中 要 传送 的 局 区 数 

当前 bio 的 当前 段 中 要 传送 的 局 区 数 
要 传送 的 下 一 个 局 区 号 

整个 请 求 中 要 传送 的 扇 区 数 (由 通用 
块 层 更 新 ) 

当前 bio 的 当前 段 中 要 传送 的 局 区 数 
(由 通用 块 层 更 新 ) 

请 求 中 第 一 个 没有 完成 传送 操作 的 bio 
请 求 链表 中 末尾 的 bio 

指向 MO 调度 程序 私有 数据 的 指针 
请 求 状态 : 实际 上 ， 或 者 是 RE_ 


ACTIVE, 或 者 是 RO_INACTIVE 

请 求 所 引用 的 磁盘 描述 符 

用 于 记录 当前 传送 中 发 生 的 W/O 失败 
次 数 的 计数 器 

请 求 的 起 始 时 间 (用 jiffies 表示 ) 

请 求 的 物理 段 数 
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表 14-7: 请 求 描述 符 的 字段 ( 续 ) 


类 型 字段 

Tt tag 

Char * buffer 
int ref_count 
request queue t * q 


struct request_list * rl 


struct completion * waiting 
VOL special 
unsigned int cmd_len 
unsigned char [人 cmd 
unsigned int data_len 
oe 六 data 
unsigned int Sense_len 
WO sense 
unsigned int timeout 
struct pn 


request_ pm state * 


373 
说 明 
与 请 求 相关 的 标记 (只 适合 支持 多 次 
数据 传送 的 硬件 设备 ) 


指 疝 当 前 数据 传送 的 内 存 缓冲 区 的 指 
针 (如果 缓冲 区 是 高 端 内 存 区 ， 则 为 


NULL) 

请 求 的 引用 计数 器 

指向 包含 请 求 的 请 求 队列 描述 符 的 指针 
指向 request_list 结构 的 指针 
等 待 数据 传送 终止 的 Completion 结构 
(参见 第 五 章 的 “补充 原 语 ” 一 节 ) 
对 硬件 设备 发 出 “特殊 ”命令 的 请 求 
所 使 用 的 数据 的 指针 

cmqd 字段 中 命令 的 长 度 

由 请 求 队列 的 prep_rq_fn 方 法 准备 好 
的 预先 内 置 命令 所 在 的 缓冲 区 
通常 ， 由 data 字段 指 向 的 缓冲 区 中 数 
据 的 长 度 

设备 驱动 程序 为 了 跟踪 所 传送 的 数据 
而 使 用 的 指针 


由 sense 字 段 指 向 的 缓冲 区 的 长 度 
(如 果 sense 是 NULL， 则 为 0) 


指向 输出 sense 命 令 的 缓冲 区 的 指针 
请 求 的 超时 
指向 电源 管理 命令 所 使 用 的 数据 结构 


每 个 请 求 包含 一 个 或 多 个 bio 结构。 最初 ， 通 用 块 层 创建 一 个 仅 包 含 一 个 bio 结构 的 请 
求 。 然 后 ，LO 调度 程序 要 么 向 初始 的 bio 中 增加 一 个 新 段 ， 要 么 将 另 一 个 bio 结 构 链接 
到 请 求 中 ， 从 而 “扩展 ”该 请 求 。 可 能 存在 新 数据 与 请 求 中 已 存在 的 数据 物理 相 邻 的 情 
况 。 请 求 描述 符 的 bio 字段 指向 请 求 中 的 第 一 个 bio 结 构 , 而 biotail 字 段 则 指向 最 后 
一 个 bio 结构 。rq_for_each_bio 宏 执行 一 个 循环 , 从 而 遍历 请 求 中 的 所 有 bio 结构。 


请 求 描 述 符 中 的 几 个 字段 值 可 能 是 动态 变化 的 。 例 如 ， 一 旦 bio 中 引用 的 数据 块 全 部 传 
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送 完毕 , bio 字段 立即 更 新 从 而 指向 请 求 链表 中 的 下 一 个 bio。 在 此 期 间 , 新 的 bio 可 能 
锌 加 入 到 请 求 链表 的 尾部 ， 所 以 biotail 的 值 也 可 能 改变 。 


当 磁 盘 数 据 块 正在 传送 时 ， 请 求 描述 符 的 其 它 几 个 字段 的 值 由 LO 调度 程序 或 设备 驱动 
程序 修改 。 例 如 , nr_sectors 存 放 整 个 请 求 还 需 传送 的 扇 区 数 ，current_nr_sectors 
存放 当前 bio 结构 中 还 需 传 送 的 扇 区 数 。 


flags 中 存放 了 很 多 标志 ,如 表 14-8 中 所 示 。 到 目前 为 止 ,最 重要 的 一 个 标志 是 REQ_RW， 
它 确定 数据 传送 的 方向 。 


表 14-8: 请 求 描述 符 的 标志 


标志 说 明 
REQ_RW 数据 传送 的 方向 : READ (0) 或 WRITE (1) 


REQ_FAILFAST 
REQ_SOFTBARRIER 
REQ_ HARDBARRIER 


REQ_CMD 
REQ_NOMERGE 
REQ_STARTED 


REQ_DONTPREP 


REQ_QUEUED 


REQ_PC 
REQ_BLOCK_PC 
REQ_SENSE 


REQ_FAILED 


REQ_QUIET 
REQ_SPECIAL 
REQ_DRIVE_CMD 
REQ_DRIVE_TASK 
REQ_DRIVE _ TASKFILE 


REQ_PREEMPT 


万 一 出 错 请 求 申明 不 再 重 试 VO 操作 

请 求 相 当 于 IO 调度 程序 的 屏障 

请 求 相 当 于 IO 调度 程序 和 设备 驱动 程序 的 屏障 应 当 在 
旧 请 求 与 新 请 求 之 间 处 理 该 请 求 

包含 一 个 标准 的 读 或 写 MO 数据 传送 的 请 求 

不 允许 扩展 或 与 其 它 请 求 合并 的 请 求 

正 处 理 的 请 求 

不 调用 请 求 队列 中 的 prep_rq_fn 方 法 预先 准备 把 命令 发 送 给 
硬件 设备 

请 求 被 标记 一 一 也 就 是 说 , 与 该 请 求 相关 的 硬件 设备 可 以 同 
时 管理 很 多 未 完成 数据 的 传送 

请 求 包含 发 送 给 硬件 设备 的 直接 命令 

与 前 一 个 标志 功能 相同 ， 但 发 送 的 命令 包含 在 bio 结构 中 
请 求 包含 一 个 “sense ”请 求 命 令 (SCSI 和 ATAPI 设 备 使 用 ) 
当 请 求 中 的 sense 或 direct 命 令 的 操作 与 预期 的 不 一 致 时 设置 
万 一 IO 操作 出 错 请 求 申明 不 产生 内 核 消息 

请 求 包含 对 硬件 设备 的 特殊 命令 《例如 ， 重 设 驱 动 强 ) 

请 求 包含 对 IDE 磁盘 的 特殊 命令 

请 求 包含 对 IDE 磁盘 的 特殊 命令 

请 求 包含 对 IDE 磁盘 的 特殊 命令 

请 求 取代 位 于 请 求 队列 前 面 的 请 求 〈 仅 对 IDE 磁盘 而 言 ) 
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表 14-8: 请 求 描述 符 的 标志 ( 续 ) 


标志 说 明 

REQ_PM_SUSPEND 请 求 包含 一 个 挂 起 硬件 设备 的 电源 管理 命令 
REQ_PM_RESUME 请 求 包含 一 个 唤醒 硬件 设备 的 电源 管理 命令 
REQ_PM_SHUTDOWN 请 求 包含 一 个 切断 硬件 设备 的 电源 管理 命令 
REQ_BAR_PREFLUSH 请 求 包含 一 个 要 发 送 给 磁盘 控制 器 的 “刷新 队列 ”命令 


REQ_BAR_POSTEFLUSH 请 求 包含 一 个 已 发 送 给 磁盘 控制 器 的 “刷新 队列 ”命令 





对 请 求 描 述 符 的 分 配 进行 管理 

在 重负 载 和 磁盘 操作 频繁 的 情况 下 ,固定 数目 的 动态 空间 内 存 将 成 为 进程 想 要 把 新 请 求 
加 入 请 求 队列 g 的 瓶颈 。 为 了 解决 这 种 问题 ， 每 个 request_queue 摘 述 符 包含 一 个 
request_list 数据 结构 ， 其 中 包括 : 


。 ”一 个 指针 ， 指 向 请 求 描述 符 的 内 存 地 (参见 第 八 章 的 “内 存 池 ”一 节 )。 

。 ”两 个 计数 器 ,分别 用 于 记录 分 配给 READ 和 WRITE 请 求 的 请 求 描述 符 数 。 
。 ”两 个 标志 ,分别 用 于 标记 为 读 或 写 请 求 的 分 配 是 否 失 败 。 

。 ”两 个 等 待 队列 ， 分 别 存放 了 为 获得 空 闪 的 读 和 写 请 求 描述 符 而 睡眠 的 进程 。 
。 ”一 个 等 待 队列 ， 存 放 等 待 一 个 请 求 队列 被 刷新 (清空 ) 的 进程 。 


blk_get_request () 国 数 试 图 从 一 个 特定 请 求 队列 的 内 存 池 中 获得 一 个 空闲 的 请 求 描述 
符 ; 如 果 内 存 区 不 足 并 且 内 存 凶 已 经 用 完 ， 则 要 么 挂 起 当前 进程 ， 要 么 返回 NULL (如 
果 不 能 阻塞 内 核 控 制 路 径 )。 如果 分 配 成 功 , 则 将 请 求 队列 的 reauest_list 数 据 结构 的 
地 址 存放 在 请 求 描 述 符 的 rl 字段 中 。blk_put_request () 函数 则 释放 一 个 请 求 描述 符 ， 
如 果 该 描述 符 的 引用 计数 器 的 值 为 0， 则 将 描述 符 归 还 回 它 原来 所 在 的 内 存 池 。 


避免 请 求 队列 拥塞 

每 个 请 求 队列 都 有 一 个 允许 处 理 的 最 大 请 求 数 , 请 求 队列 描述 符 的 nr_requests 字 上段 存 
放 了 每 个 数据 传送 方向 所 允许 处 理 的 最 大 请 求 数 。 缺 省 情况 下 , 一 个 队列 至 多 有 128 个 
待 处 理 读 请 求 和 128 个 待 处 理 写 请 求 。 如 果 待 处 理 的 读 ( 写 ) 请 求 数 超过 了 nr_requests 
值 ， 那 么 通过 设置 请 求 队 列 描述 符 的 queue_flags 字段 的 QUEUE_FLAG_READFULL 
(QUEUE_FLAG_WRITEFULL) 标志 将 该 队列 标记 为 已 满 , 试图 把 请 求 加 入 到 某 个 传送 
方向 的 可 阻塞 进程 被 放置 到 request_list 结构 所 对 应 的 等 待 队 列 中 睡眠 。 
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一 个 填 满 的 请 求 队列 对 系统 性 能 有 人 负面 影响 ， 因 为 它 会 强制 许多 进程 去 睡眠 以 等 待 1/0 
数据 传送 的 完成 。 因此 ,如 果 给 定 传送 方向 上 的 待 处 理 请 求 数 超 过 了 存放 在 请 求 描述 符 
的 nr_congestion_on 字 段 中 的 值 ( 缺 省 值 为 113) ， 那 么 内 核 认 为 该 队列 是 拥塞 的 ,并 
试图 降低 新 请 求 的 创建 速率 。 当 待 处 理 请 求 数 小 于 nr_congestion_off 的 值 ( 缺 省 值 为 
111) 时 ,拥塞 的 请 求 队列 才 变 为 不 拥塞 。b1lk_congestion_wait () 国 数 挂 起 当前 进程 ， 
直到 所 有 请 求 队列 都 变 为 不 拥塞 或 超时 已 到 。 


激活 块 设备 驱动 程序 

正如 我 们 在 前 面 已 经 看 到 的 一 样 , 延 迟 激活 块 设备 驱动 程序 有 利于 把 相 邻 块 的 请 求 进行 
集中 。 这 种 延迟 是 通过 所 谓 的 设备 插入 和 设备 拔 出 技术 ( 注 2) 来 实现 的 。 在 块 设备 驱 
动 程序 被 插入 时 ， 读 驱动 程序 并 不 被 激活 ， 即 使 在 驱动 程序 队列 中 有 待 处 理 的 请 求 。 


blk_plug_device() 函 数 的 功能 是 插入 一 个 块 设备 一 一 更 准确 地 说 ， 揪 入 到 某 个 块 设 
备 驱 动 程序 处 理 的 请 求 队列 中 。 本 质 上 , 该 函数 接收 一 个 请 求 队列 描述 符 的 地 址 a 作为 
其 参数 。 它 设置 q->queue_flags 字 段 中 的 QUEUE_FLAG_PLUGGED 位 ， 然后 , 重新 启 
动 q->unplug_timer 字段 中 的 内 骨 动 态 定时 器 。 


blk_remove_plug () 则 拔 去 一 个 请 求 队列 q， 清除 QUEUE_FLAG_PLUGGED 标志 并 取 
消 gq->unplug_timer 动 态 定时 器 的 执行 。 当 “视线 中 ”所 有 可 合并 的 请 求 都 被 加 入 请 求 
队列 时 ,内核 就 会 显 式 地 调用 该 函数 。 此 外 ,如果 请 求 队列 中 待 处 理 的 请 求 数 超过 了 请 
求 队列 描述 符 的 unplug_thresh 字 段 中 存放 的 值 ( 缺 省 值 为 4), 那么 11O 调 度 程 序 也 会 
去 掉 该 请 求 队列 。 


如 果 一 个 设备 保持 插入 的 时 间 间 隔 为 qa->unplug_delay (通常 为 3ms)， 那 么 说 明 由 
blk_plug_dGevice() 函 数 激 活 的 动态 定时 器 的 时 间 已 用 完 ， 因 此 就 会 执行 
blk_unplug_timeout () 函 数 。 因 而 ,唤醒 内 核 线程 kbliockd 所 操作 的 工作 队列 
kblockd_workqueue (参见 第 四 章 的 “工作 队列 ”一 节 )。kbliockd 执行 blk - 
unplug_work() 了 范 数 ， 其 地 址 存放 在 q->unplug_work 结 构 中 。 接 着 ,该 遇 数 会 调用 请 
求 队列 中 的 Ga->unplug_fn 方 法, 通常 该 方法 是 由 generic_unplug_dqevice() 国 数 实 现 
的 。generic_unplug_qevice() 国 数 的 功能 是 拔 出 块 设备 : 首先 , 检查 请 求 队列 是 否 仍 
然 活 跃 ， 然后， 调用 blk_remove_plug() 国 数 ， 最 后 ， 执 行 策略 例 程 request_fn 方 法 
来 开始 处 理 请 求 队列 中 的 下 一 个 请 求 (参见 本 章 后 面 的 “注册 和 初始 化 设备 驱动 程序 ” 
一 市 )。 


注 2: 如 果 “ 插 入 ”和 “ 拔 出 ”这 两 个 本 语 使 你 殴 解 ， 你 可 以 把 它们 分 别 理解 为 “激活 ”和 “ 撤 
消 。 
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IO 调度 算法 

当 向 请 求 队列 增加 一 条 新 的 请 求 时 , 通用 块 层 会 调用 1/O 调度 程序 来 确定 请 求 队列 中 新 
请 求 的 确切 位 置 。L/O 调度 程序 试图 通过 遍 区 将 请 求 队列 排序 。 如 果 顺 序 地 从 链表 中 提 
取 要 处 理 的 请 求 , 那么 就 会 明显 减少 磁头 寻 道 的 次 数 , 因为 磁头 是 按照 直线 的 方式 从 内 
磁道 移 向 外 磁道 (反之 亦 然 )， 而 不 是 随意 地 从 一 个 磁道 跳跃 到 另 一 个 磁道 。 这 可 以 从 电 
梯 算 法 中 得 到 启发 , 回想 一 下 ,电梯 算法 处 理 来 自 不 同 层 的 上 下 请 求 。 电梯 是 往 一 个 方 
向 移动 的 ; 当 朝 一 个 方向 上 的 最 后 一 个 预定 层 到 达 时 , 电梯 就 会 改变 方向 而 开始 向 相反 
的 方向 移动 。 因 此 ，LO 调度 程序 也 被 称 为 电梯 算法 (elevaitor)。 


在 重负 载 情况 下 ,严格 遵循 扇 区 号 顺序 的 IO 调度 算法 运行 的 并 不 是 很 好 。 在 这 种 情形 
下 , 数据 传送 的 完成 时 间 主 要 取决 于 磁盘 上 数据 的 物理 位 置 。 因 此 ， 如 果 设 备 驱 动 程序 
处 理 的 请 求 位 于 队列 的 首部 〈 小 而 区 号 ) ， 并 且 拥 有 小 局 区 号 的 新 请 求 不 断 被 加 入 队列 
中 ， 那 么 队列 末尾 的 请 求 就 很 容易 会 饿 死 。 因 而 1/O 调度 算法 会 非常 复杂 。 


当前 ,Linux 2.6 中 提供 了 四 种 不 同类 型 的 LI/O 调度 程序 或 电梯 算法 ， 分别 为 “预期 
(Anticipatory)” 算 法 .“ 最 后 期 限 (Deadline)” 算 法 、“CFQ (Complete Fairness 
Queueing ， 完 全 公平 队列 )” 算 法 以 及 “Noop (No Operation) ”算法 。 对 大 多 数 块 设备 
而 言 ， 内 核 使 用 的 缺 省 电梯 算法 可 在 引导 时 通过 内 核 参 数 elevator=<name> 进行 再 设 
置 , 其 中 <name> 值 可 取 下 列 任何 一 个 ; as、deadline、cfq 和 noop。 如 果 没 有 给 定 引 
导 参 数 ， 那 么 内 核 缺 省 使 用 “预期 ”LO 调度 程序 。 总 之 ,设备 驱 动 程序 可 以 用 任何 一 
个 调度 程序 取代 缺 省 的 电梯 算法 ， 设备 驱动 程序 也 可 以 自己 定制 VO 调度 算法 , 但 是 这 
种 情况 很 少见 。 


此 外 ， 系 统管 理 员 可 以 在 运行 时 为 一 个 特定 的 块 设备 改变 MO 调度 程序 。 例 如 ， 为 了 改 
变 第 一 个 IDE 通 道 的 主 磁盘 所 使 用 的 VO 调度 程序 , 管理 员 可 把 一 个 电梯 算法 的 名 称 写 
入 sysfs 特殊 文件 系统 的 /sys/block/hda/queue/scheduler 文件 中 (参见 第 十 三 章 中 的 
“sysfs 文件 系统 ”一 市 )。 


请 求 队列 中 使 用 的 VO 调度 算法 是 由 一 个 elevator_t 类 型 的 elevator 对 象 表 示 的 ; 该 对 
象 的 地 址 存放 在 请 求 队列 描述 符 的 elevator 字段 中 。elevator 对 象 包含 了 几 个 方法 ， 它 
们 覆盖 了 elevator 所 有 可 能 的 操作 : 链接 和 断 开 elevator， 增 加 和 合并 队列 中 的 请 求 ， 从 
队列 中 删除 请 求 , 获得 队列 中 下 一 个 待 处 理 的 请 求 等 等 。elevator 对 象 也 存放 了 一 个 表 的 
地 址 ， 表 中 包含 了 处 理 请 求 队列 所 需 的 所 有 人 信息。 而且 ， 每 个 请 求 描述 符 包含 一 个 
elevator_private 字 段 ,该 字段 指向 一 个 由 IO 调度 程序 用 来 处 理 请 求 的 附加 数据 结构 。 


现在 我 们 从 易 到 难 简要 地 介绍 一 下 四 种 VO 调度 算法 。 注 意 ， 设 计 一 个 LO 调度 程序 与 
设计 一 个 CPU 调度 程序 很 相似 (参见 第 七 章 ): 局 发 算法 和 采用 的 常量 值 是 测试 和 基 难 
外 延 量 的 结果 。 
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一 般 而 言 ， 所 有 的 算法 都 使 用 一 个 调度 队列 (dispatch queue)， 队列 中 包含 的 所 有 请 求 
按照 设备 驱动 程序 应 当 处 理 的 顺序 进行 排序 一 一 也 即 设备 驱动 程序 要 处 理 的 下 一 个 请 
求 通常 是 调度 队列 中 的 第 一 个 元 素 . 调 度 队 列 实际 上 是 由 请 求 队列 描述 符 的 queue._head 
字段 所 确定 的 请 求 队列 。 几 乎 所 有 的 算法 都 使 用 另外 的 队列 对 请 求 进行 分 类 和 排序 。 它 
们 允许 设备 驱动 程序 将 bio 结构 增加 到 已 存在 请 求 中 ， 如 果 需 要 ， 还 要 合并 两 个 “ 相 邻 
的 ”请 求 。 


Noop ”算法 


这 是 最 简单 的 IO 调度 算法 。 它 没有 排序 的 队列 : 新 的 请 求 通常 被 插 在 调度 队列 的 开头 
或 末尾 ， 下 一 个 要 处 理 的 请 求 总 是 队列 中 的 第 一 个 请 求 。 


“CFQ” 算 法 

“CFQ (完全 公平 队列 )” 算 法 的 主要 目标 是 在 多 发 UO 请 求 的 所 有 进程 中 确保 磁盘 MO 
带宽 的 公平 分 配 。 为 了 达到 这 个 目标 ， 算 法 使 用 许多 个 排序 队列 一 一 缺 省 为 64 一 一 
它们 存放 了 不 同 进程 发 出 的 请 求 。 当 算法 处 理 一 个 请 求 时 , 内 核 调用 一 个 散 列 函数 将 当 
前 进程 的 线程 组 标识 符 〈 通 常 ， 它 对 应 其 PID ， 参 见 第 三 章 “ 标 识 一 个 进程 ”一 节 ) 转 
换 为 队列 的 索引 值 ， 然后， 算法 将 一 个 新 的 请 求 插入 该 队列 的 末尾 。 因 此 ， 同 一 个 进程 
发 出 的 请 求 通常 被 插入 相同 的 队列 中 。 


为 了 再 填充 调度 队列 ,算法 本 质 上 采用 轮 询 方式 扫描 WO 输入 队列 ,选择 第 一 个 非 空 队 
列 ， 然 后 将 该 队列 中 的 一 组 请 求 移动 到 调度 队列 的 末尾 。 


“最 后 期 限 ” 算 法 


除了 调度 队列 外 ,“ 最 后 期 限 ” 算 法 还 使 用 了 四 个 队列 。 其 中 的 两 个 排序 队列 分 别 包 含 
读 请 求 和 写 请 求 , 其 中 的 请 求 是 根据 起 始 饥 区 数 排序 的 。 另 外 两 个 最 后 期 限 队 列 包 含 相 
同 的 读 和 写 请 求 , 但 这 是 根据 它们 的 “最 后 期 限 ” 排 序 的 。 引 入 这 些 队 列 是 为 了 避免 请 
求 饿 死 , 由 于 电梯 策略 优先 处 理 与 上 一 个 所 处 理 的 请 求 最 近 的 请 求 , 因而 就 会 对 某 个 请 
求 忽略 很 长 一 段 时间 , 这 时 就 会 发 生 这 种 情况 。 请求 的 最 后 期 限 本 质 上 就 是 一 个 超时 定 
时 强 ， 当 请 求 被 传 给 电梯 算 革 时 开始 计时 。 缺 省 情况 下 ， 读 请 求 的 超时 时 间 是 500ms， 
写 请 求 的 超时 时 间 是 5s 一 一 读 请 求 优先 于 写 请 求 ， 因 为 读 请 求 通常 阻塞 发 出 请 求 的 进 
程 。 最 后 期 限 保证 了 调度 程序 照顾 等 待 很 长 一 段 时 间 的 那个 请 求 , 即使 它 位 于 排序 队列 
的 末尾 。 


当 算 法 要 补充 调度 队列 时 , 首先 确定 下 一 个 请 求 的 数据 方向 。 如果 同时 要 调度 读 和 写 两 
个 请 求 ， 算 法 会 选择 “ 读 ”方向 ,除非 该 “ 写 ” 方 向 已 经 被 放弃 很 多 次 了 (为 了 避免 写 
请 求 饿 死 )。 
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接 下 来 , 算法 检查 与 被 选择 方向 相关 的 最 后 期 限 队列 : 如 果 队 列 中 的 第 一 个 请 求 的 最 后 
期 限 已 用 完 , 那么 算法 将 该 请 求 移 到 调度 队列 的 末尾 也 可 以 从 超时 的 那个 请 求 开始 移 
动 来 自 排序 队列 的 一 组 请 求 。 如 果 将 要 移动 的 请 求 在 磁盘 上 物理 相 邻 , 那么 组 的 长 度 会 
变 长 ， 否 则 就 变 短 。 


最 后 , 如 果 没 有 请 求 超时 , 算法 对 来 自 于 排序 队列 的 最 后 一 个 请 求 之 后 的 一 组 请 求 进行 
调度 。 当 指针 到 达 排序 队列 的 未 尾 时 ， 搜 索 又 从 头 开始 〈“ 单 方向 算法 ")。 


“预期 ”算法 

“预期 ”算法 是 Linux 提供 的 最 复杂 的 一 种 IO 调度 算法 。 基 本 上 , 它 是 “最 后 期 限 ” 算 
法 的 一 个 演变 , 借用 了 “最 后 期 限 ” 算 法 的 基本 机 制 : 两 个 最 后 期 限 队 列 和 两 个 排序 队 
列 ，I/O 调度 程序 在 读 和 和 写 请 之 间 交 互 扫描 排序 队列 ， 不 过 更 倾向 于 读 请 求 。 扫 描 基 本 
上 是 连续 的 , 除非 有 某 个 请 求 超时 。 读 请 求 的 缺 省 超时 时 间 是 125ms ， 写 请 求 的 缺 省 超 
时 时 间 是 250ms。 但 是 ， 该 算法 还 遵循 一 些 附 加 的 启发 式 准则 ， 


。 “有 些 情况 下 , 算法 可 能 在 排序 队列 当前 位 置 之 后 选择 一 个 请 求 , 从 而 强制 磁头 从 后 
搜索 。 这 种 情况 通常 发 生 在 这 个 请 求 之 后 的 搜索 距离 小 于 在 排序 队列 当前 位 置 之 后 
对 该 请 求 搜索 距离 的 一 半 时 。 

。 ”算法 统计 系统 中 每 个 进程 触发 的 IO 操作 的 种 类 。 当 刚刚 调度 了 由 某 个 进程 p 发 出 
的 一 个 读 请 求 之 后 ,算法 马上 检查 排序 队列 中 的 下 一 个 请 求 是 否 来 自 同一 个 进程 p。 
如 果 是 ,立即 调度 下 一 个 请 求 。 否则 ,查看 关于 该 进程 p 的 统计 信息 : 如 果 确 定 进 
程 p 可 能 很 快 发 出 另 一 个 读 请 求 ， 那 么 就 延迟 一 小 段 时 间 〈 缺 省 大 约 为 7ms) 。 因 
此 ， 算 法 预测 进程 p 发 出 的 读 请 求 与 刚 被 调度 的 请 求 在 磁盘 上 可 能 是 “近邻 ”。 


器 I/O 调度 程序 发 出 请 求 


正如 我 们 在 本 章 前 面 的 “提交 请 求 ”一 节 中 所 看 到 的 ，generic_make_request () 国 数 
调用 请 求 队列 描述 符 的 make_request_fn 方 法 向 IO 调度 程序 发 送 一 个 请 求 。 通 常 该 方 
法 是 由 __make_request () 国 数 实现 的 : 该 函数 接收 一 个 request_queue 类 型 的 描述 
符 q 和 一 个 bio 结构 的 描述 符 bio 作为 其 参数 ， 然 后 执行 如 下 操作 : 


1. 如果 需要 ， 调 用 P1k_queue_bounce() 国 数 建 立 一 个 回 弹 缓 钟 区 (参见 后 面 )。 如 
果 回 弹 绿 促 区 被 建立 ，_ _make_request () 国 数 将 对 该 缓冲 区 而 不 是 原先 的 bio 结 
构 进行 操作 。 


2. ”调用 WO 调度 程序 的 elv_queue_empty () 国 数 检查 请 求 队列 中 是 否 存在 待 处理 请 
求 一 一 注意 ， 调 度 队 列 可 能 是 空 的 ， 但 是 VO 调度 程序 的 其 他 队列 可 能 包含 待 处 
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理 请 求 。 如 果 没 有 待 处 理 请 求 ， 那 么 调用 blk_plug_device() 函 数 插 入 请 求 队列 

(参见 本 章 前 面 的 “激活 块 设备 驱动 程序 ”一 节 )， 然 后 跳 转 到 第 $ 步 。 

插入 的 请 求 队列 包含 待 处 理 请 求 。 调用 1/O 调 度 程序 的 elv_merge() 函数 检查 新 的 

bio 结构 是 否 可 以 并 入 已 存在 的 请 求 中 。 该 函数 将 返回 三 个 可 能 值 : 

。 ELEVATOR_NO_MERGE; 已 经 存在 的 请 求 中 不 能 包含 bio 结构 ， 这 种 情况 下 ， 
跳 转 到 第 5 步 。 

。 ELEVATOR_BACK_MERGE; bio 结 构 可 作为 末尾 的 bio 而 插入 到 某 个 请 求 req 
中 ; 这 种 情形 下 , 函数 调用 gq->back_merge_fn 方 法 检查 是 否 可 以 扩展 该 请 求 。 
如 果 不 行 ， 则 跳 转 到 第 5 步 。 否 则 ， 将 bio 搞 述 符 插 入 reg 链表 的 末尾 并 更 新 
req 的 相应 字段 值 。 然 后 ， 国 数 试图 将 该 请 求 与 其 后 面 的 请 求 合 并 (新 的 bio 
可 能 填充 在 两 个 请 求 之 间 )。 

。 ELEVATOR_FRONT_MERGE. bio 结 构 可 作为 某 个 请 求 rea 的 第 一 个 bio 被 插 
入 ; 这 种 情形 下 ， 函 数 调 用 q->front_merge_fn 方 法 检查 是 否 可 以 扩展 该 请 
求 。 如 果 不 行 ， 则 跳 转 到 第 5 步 。 否 则 ， 将 bio 描述 符 插 入 req 链表 的 首部 并 
更 新 req 的 相应 字段 值 。 然 后 ， 试 图 将 该 请 求 与 其 前 面 的 请 求 合并 。 

bio 已 经 被 并 人 存在 的 请 求 中 ， 跳 转 到 第 7 步 终止 函 数 。 

bio 必须 被 插入 到 一 个 新 的 请 求 中 。 分 配 一 个 新 的 请 求 描 述 符 。 如 果 没 有 空闲 的 内 

存 ， 那 么 挂 起 当前 进程 ， 直 到 设置 了 bio->bi_rw 中 的 BIO_RW_AHEAD 标 志 ， 访 

标志 表明 这 个 1/O 操作 是 一 次 预 读 (参见 第 十 六 章 )， 在 这 种 情形 下 ， 国 数 调用 

bio_enqio() 并 终止 : 此 时 将 不 会 执行 数据 传送 。 对 bioc_engio() 国 数 的 拉 述 参 

见 generic_make_request () 国 数 执行 的 第 1 步 操作 (参见 前 面 的 “提交 请 求 ” 一 

人 

例 始 化 请 求 描述 符 中 的 字段 。 主 要 有 : 

a. 根据 bio 描述 符 的 内 容 初 始 化 各 个 字段 ， 包 括 扇 区 数 、 当 前 bio 以 及 当前 段 。 

b. 设置 flags 字段 中 的 REQ_CMD 标 志 (一 个 标准 的 读 或 写 操作 )。 

c. ”如果 第 一 个 bio 段 的 页 框 存放 在 低 端 内 存 , 则 将 buffer 字 段 设置 为 缓冲 区 的 线 
性 地 址 。 

d. 将 rq_disk 字段 设置 为 bio->bi_baev->pd_disk 的 地 址 。 

e， 将 bio 插 入 请 求 链 表 。 

f. 将 start_time 字 段 设 置 为 jiffies 的 值 。 


所 有 操作 全 部 完成 。 但 是 ， 在 终止 之 前 ， 检 查 是 否 设置 了 bio->pi_rw 中 的 
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BIO_RW_SYNC 标 志 。 如 果 是 , 则 对 “请 求 队列 ”调用 generic_unplug_device() 
函数 以 印 载 设备 驱动 程序 (参见 本 章 前 面 的 “激活 块 设备 驱动 程序 ”一 节 )。 
8. 国 数 终止 。 


如 果 在 调用 __make_request () 国 数 之 前 请 求 队 列 不 是 空 的 , 那么 说 明 该 请 求 队列 要 么 
已 经 被 拔 掉 过 ， 要 么 很 快 将 被 拔 掉 因为 每 个 拥有 待 处 理 请 求 的 插入 请 求 队列 a 都 
有 一 个 正在 运行 的 动态 定时 器 gq->unplug_timer。 另 一 方面 , 如果 请 求 队列 是 空 的 ， 则 
__make_request () 国 数 插入 请 求 队列 。 或 迟 〈 最 坏 的 情况 是 当 拔 出 的 定时 器 到 期 了 ) 
或 早 (从 __make_request () 中 退出 时 ， 如 果 设 置 了 bio 的 BIO_RN_SYNC 标 志 )， 该 请 
求 队列 都 会 被 拔 掉 。 任 何 情形 下 , 块 设 备 驱 动 程序 的 策略 例 程 最 后 都 将 处 理 调度 队列 中 
的 请 求 〈 参 见 本 章 后 面 的 “注册 和 初始 化 设备 驱动 程序 ”一 节 ) 。 





blk_queue_bounce() 函 数 


blk_aueue_bounce() 函数 的 功能 是 查看 q->bounce_gfp 中 的 标志 以 及 q->bounce_pfn 
中 的 赣 值 ， 从 而 确定 回 弹 缓 冲 区 (buffer bouncing) 是 否 是 必需 的 。 通 常 当 请 求 中 的 一 
些 缓冲 区 位 于 高 端 内 存 而 硬件 设备 不 能 访问 它们 时 发 生 这 种 情况 。 


ISA 总 线 使 用 的 老式 DMA 方式 只 能 处 理 24 位 的 物理 地 址 。 因 此 , 回 弹 缓 冲 区 的 上 限 设 
为 16 MB， 也 就 是 说 ， 页 框 号 为 4096。 然 而 ， 当 处 理 老 去 设备 时 ， 块 设备 驱动 程序 通 
常 不 依赖 回 弹 缓冲 区 ， 相反 ， 它 们 更 倾向 于 直接 在 ZONE_DMA 内存 区 中 分 配 DMA 缓冲 
区 。 


如 果 硬 件 设 备 不 能 处 理 高 端 内 存 中 的 缓冲 区 ， 则 blk_aqueue_pounce () 国 数 检查 bio 中 
的 一 些 缓 冲 区 是 否 真 的 必须 是 回 弹 的 。 如 果 是 ， 则 将 bio 描述 符 复制 一 份 ， 接 着 创建 一 
个 回 弹 bio,; 然后 , 当 段 中 的 页 框 号 等 于 或 大 于 g->bounce_pfn 的 值 时 ,执行 下 列 操作 


1. 根据 分 配 的 标志 ， 在 ZONE_NORMAL 或 ZONE_DMA 内 存 区 中 分 配 一 个 页 框 。 
2. ”更 新 回 弹 bio 中 段 的 bv_page 字段 的 值 ， 使 其 指向 新 页 框 的 描述 符 。 


3， 如 果 pio->bio_rw 代 表 一 个 写 操 作 ,， 则 调用 kmap () 临 时 将 高 端 内 存 页 映射 到 内 核 
地 址 空间 中 ， 然 后 将 高 端 内 存 页 复制 到 低 端 内 存 页 上 ， 最 后 调用 kunmap () 释 放 该 
映射 。 


然后 bl1k_queue_pounce() 国 数 设 置 回 弹 bio 中 的 BIO_BOUNCED 标志 ， 为 其 初始 化 一 
个 特定 的 bi_end_io 方 法 ， 最 后 将 它 存放 在 回 弹 bio 的 bi_private 字 段 中 ,该 字段 是 
指向 初始 bio 的 指针 。 当 在 回 弹 bio 上 的 WO 数据 传送 终止 时 ， 芳 数 执行 bi_engd_io 方 法 
将 数据 复制 到 高 端 内 存 区 中 ( 仪 适合 读 操作 )， 并 释放 该 回 弹 bio 结构 。 


人 
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块 设备 驱 动 程序 是 Linux 块 子 系统 中 的 最 底层 组 件 。 它 们 从 LO 调度 程序 中 获得 请 求 , 然 
后 按 要 求 处 理 这 些 请 求 。 


当然 , 块 设 备 驱 动 程序 是 设备 驱动 程序 模型 的 组 成 部 分 (参见 第 十 三 章 中 的 “设备 驱动 
程序 模型 ”一 节 )。 因此, 每 个 块 设备 驱动 程序 对 应 一 个 aevice_dqriver 类 型 的 描述 符 ， 
此 外 ， 设 备 驱 动 程序 处 理 的 每 个 磁盘 都 与 一 个 device 描 述 符 相关 联 。 但 是 ， 这 些 描述 
符 没 有 什么 特别 的 ; 块 IO 子 系统 必须 为 系统 中 的 每 个 块 设 备 存放 附加 信息 。 


块 设备 

一 个 块 设备 驱动 程序 可 能 处 理 几 个 块 设备 。 例 如 ，1IDE 设备 驱动 程序 可 以 处 理 几 个 IDE 
磁盘 ， 其 中 的 每 个 都 是 一 个 单独 的 块 设备 。 而且， 每 个 磁盘 通常 是 被 分 区 的 ,每 个 分 区 
又 可 以 被 看 作 是 一 个 逻辑 块 设备 。 很 明显 , 块 设 备 驱 动 程序 必须 处 理 在 块 设备 对 应 的 块 
设备 文件 上 发 出 的 所 有 VFS 系统 调用 。 


每 个 块 设备 都 是 由 一 个 block_device 结 构 的 描述 符 来 表示 的 ， 其 字段 如 表 14-9 所 示 。 


表 14-9， 块 设备 描述 符 中 的 字段 


类 型 字段 说 明 

dev_t bd_dev 块 设 备 的 主 设备 号 和 次 设备 号 

struct inode * bd-inode 指向 bdev 文件 系统 中 块 设备 对 应 的 文件 索引 
节点 的 指针 

int bd_openers 计数 强 ， 统 计 块 设备 已 经 被 打开 了 多 少 次 

struct semaphore bd_sem 保护 块 设 备 的 打开 和 关闭 的 信号 量 

struct semaphore bd_mount_sem 禁止 在 块 设备 上 进行 新 安装 的 信号 量 

struct list head bd_inodes 已 打开 的 块 设备 文件 的 索引 节点 链表 的 首部 

We 过 bd_holder 块 设备 描述 符 的 当前 所 有 者 

Lt bd_holders 计数 器 , 统计 对 bd_holder 字 7 段 多 次 设置 的 次 
数 

struct bd_contains 如 果 块 设备 是 一 个 分 区 , 则 指向 整个 磁盘 的 块 


block device * 


unsigned 


Struct hd struct * 


bd _ block size 


bd_part 


设备 描述 符 ， 否 则 ， 指 向 该 块 设备 描述 符 
块 大 小 


指向 分 区 描述 符 的 指针 (如果 该 块 设备 不 是 一 
个 分 区 ， 则 为 NULL) 
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表 14-9， 块 设备 描述 符 中 的 字段 ( 续 ) 


类 型 字段 说 明 

unsigned bd part_count 计数 器 , 统计 包含 在 块 设备 中 的 分 区 已 经 被 打 
开 了 多 少 次 

int bd_invalidated 当 需 要 读 块 设备 的 分 区 表 时 设置 的 标志 

struct gendisk * bd_disk 指向 块 设备 中 基本 磁盘 的 gendisk 结 构 的 指针 

struct list head * bd_list 用 于 块 设备 描述 符 链 表 的 指针 

struct bd_inode_back 指 同 块 设备 的 专门 描述 符 backing_dev_info 

backing dev_info * ing_dev_info 的 指针 (通常 为 NULL) 

unsigned long bd_private 指 问 块 设 备 持 有 者 的 私有 数据 的 指针 


所 有 的 块 设备 描述 符 被 插入 一 个 全 局 链表 中 , 链表 首部 是 由 变量 a11l_bdevs 表 示 的 ; 链 
表 链 接 所 用 的 指针 位 于 块 设备 描述 符 的 bd_list 字段 中 。 


如 果 块 设备 描述 符 对 应 一 个 磁盘 分 区 ,那么 ba_contains 字 7 段 指向 与 整个 磁盘 相关 的 块 
设备 描述 符 ， 而 bd_part 字段 指向 ha_struct 分 区 描述 符 (参见 本 章 前 面 的 “磁盘 和 磁 
盘 分 区 的 表示 ”一 节 )。 否则 ， 若 块 设 备 描述 符 对 应 整个 磁盘 ,那么 ba_contains 字 段 指 
向 块 设 备 描 述 符 本 身 ,baq_part_count 字 段 用 于 记录 磁盘 上 的 分 区 已 经 被 打开 了 多 少 次 。 


bdq_holder 字 段 存 放 代 表 块 设备 持 有 者 的 线性 地 址 。 持 有 者 并 不 是 进行 LO 数据 传送 的 
块 设备 驱动 程序 ， 准确 地 说 ， 它 是 一 个 内 核 组 件 ,， 使 用 设备 并 拥有 独一无二 的 特权 【 例 
如 ， 它 可 以 自由 使 用 块 设备 描述 符 的 bdq_private 字 段 )。 典 型 地 , 块 设备 的 持 有 者 是 安 
装 在 该 设备 上 的 文件 系统 。 当 块 设备 文件 被 打开 进行 互 斥 访问 时 ,， 另 一 个 普 志 的 问题 出 
现 了 : 持 有 者 就 是 对 应 的 文件 对 象 。 


baq_claim() 国 数 将 ba_holder 字 段 设置 为 一 个 特定 的 地 址 ; 相反 ，baq_release() 国 数 
将 该 字段 重新 设置 为 NULL 。 然 而 ， 值 得 注意 的 是 ， 同 一 个 内 核 组 件 可 以 多 次 调用 
bd_claim() 函 数 , 每 调用 一 次 都 增加 bdq_holders 的 值 。 为 了 释放 块 设备 ,内核 组 件 必 
须 调用 baq_release() 国 数 lbd_holders 次 。 


图 14-3 对 应 的 是 一 个 整 盘 , 它 说 明了 块 设备 描述 符 是 如 何 被 链接 到 块 MO 子 系统 的 其 他 
重要 数据 结构 上 的 。 


访问 块 设 备 
当 内 核 接收 一 个 打开 块 设备 文件 的 请 求 时 ,必须 首先 确定 该 设备 文件 是 否 已 经 是 打开 的 。 
事实 上 ,如 果 文 件 已 经 是 打开 的 ,内 核 就 没有 必要 创建 并 初始 化 一 个 新 的 块 设备 描述 符 ， 
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相反 ,内 核 应 该 更 新 这 个 已 经 存在 的 块 设备 描述 符 。 然 而 ,真正 的 复杂 性 在 于 具有 相同 
主 设备 号 和 次 设备 号 但 有 不 同 路 径 名 的 块 设 备 文件 被 YVES 看 作 不 同 的 文件 ,但 是 它们 实 
际 上 指向 同一 个 块 设备 。 因 此 , 内 核 无 法 通过 简单 地 在 一 个 对 角 的 索引 于 点 高 速 缓存 中 
检查 块 设 备 文件 的 存在 就 确定 相应 的 块 设备 已 经 在 使 用 。 


bd contains 








block_device DO bd_disk 


(磁盘 ) 角 











bd_contains 


局 queue 
gen request_queue 上 
hd struct | hd struct | hd_struct | hd_ struct 
| 


图 14-3: 块 设备 换 述 符 与 块 子 系统 其 了 他 结构 的 链接 





block_device 


(分 区 ) 










bd_disk 








主 、 次 设 俩 号 和 相应 的 块 设备 接 述 符 之 间 的 关系 是 通过 bdev 特 殊 文 件 系 统 (参见 第 十 二 
曹 的 “特殊 文件 系统 ”一 节 ) 来 维护 的 。 每 个 块 设 备 描述 符 都 对 应 一 个 bdev 特殊 文件 : 
块 设备 描述 符 的 ba_incae 字 段 指向 相应 的 bdevy 索 引 节 点 ; 而 该 索引 节点 则 将 块 设 备 的 
主 、 次 设备 号 和 相应 描述 符 的 地 址 进行 编码 。 


bdget () 接 收 块 设 备 的 主 设备 志和 次 设备 号 作为 其 参数 :在 bdev 文 件 系统 中 查寻 相关 的 
索引 市 点 ; 如 果 不 存在 这 样 的 节点 ， 那 么 就 分 配 一 个 新 索引 市 点 和 新 块 设备 摘 述 符 。 在 
任何 情形 下 ， 函 数 都 返回 一 个 与 给 定 主 、 次 设备 号 对 应 的 块 设备 描 述 和 的 地 址 。 


一 旦 找到 了 块 设备 的 找 述 符 ， 那么 内 核 通过 检查 上 b3_openers 字 段 的 值 来 确定 块 设备 当 
前 是 否 在 使 用 : 如 果 值 是 正 的 , 说 明 块 设备 已 经 在 使 用 《可 能 通过 不 同 的 设备 文件 ) 。 同 
时 内 核 也 维护 一 个 与 已 打开 的 块 设 备 文件 对 应 的 索引 节点 对 象 的 链表 。 该 链表 存放 在 块 
设备 摘 述 符 的 ba_incdqes 字 段 中 ; 索引 节点 对 象 的 i devices 衬 段 存放 用 于 链接 链表 中 
的 前 后 元 素 的 指针 。 


注册 和 初始 化 设备 驱动 程序 
现在 我 们 来 说 明 一 下 为 一 个 块 设备 设计 一 个 新 的 驱动 程序 所 涉及 的 基本 步骤 。 显然, 其 


搞 述 是 比较 简单 的 ,但 是 理解 何 时 并 怎样 初始 化 块 VO 子 系统 使 用 的 主要 数据 结构 是 很 
有 用 的 。 
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我 们 省 略 了 所 有 块 设备 驱动 程序 需要 的 但 在 第 十 三 章 中 已 经 讲 过 的 步骤 。 例如 , 我 们 跳 
过 了 注册 一 个 驱动 程序 本 身 的 所 有 步 嗓 (参见 第 十 三 章 中 的 “设备 驱动 程序 模型 “一 
节 )。 通 常 ， 块 设备 属于 一 个 诸如 PCI 或 SCSI 这 样 的 标准 总 线 体系 结构 ， 内 核 提 供 了 相 
应 的 辅助 函数 ， 作 为 一 个 辅助 作用 ， 就 是 在 并 动 程序 模型 中 注册 驱动 程序 。 


自 定 义 驱 动 程 序 描述 符 


首先 , 设备 驱动 程序 需要 一 个 foo_dqev 上 类 型 的 目 定义 描述 符 foo, 它 拥 有 驱动 硬件 设备 
所 需 的 数据 。 该 描述 符 存放 每 个 设备 的 相关 信息 ,例如 操作 设备 时 使 用 的 WO 端口 、 设 备 
发 出 中 断 的 IRQ 线 、 设 备 的 内 部 状态 等 等 。 同 时 它 也 包含 块 IO 子 系统 所 需 的 一 些 字 段 : 
struct foo dev _t 1{ 
了 
spinlock_t lock; 
struct gendisk *gd; 
ss | 
} foo; 
lock 字 段 是 用 来 保护 foo 描 述 符 中 字段 值 的 自 旋 锁 ; 通常 将 其 地 址 传 给 内 核 辅助 国 数 ， 
从 而 保护 对 驱动 程序 而 言 特定 的 块 WO 子 系统 的 数据 结构 。gd 字 段 是 指向 gendisk 描 述 
符 的 指针 ， 该 描述 符 摘 述 由 这 个 驱动 程序 处 理 的 整个 块 设备 〈 磁 盘 )。 


预订 主 设 备 号 
设备 驱动 程序 必须 目 己 预订 一 个 主 设 备 号 。 传 统 上 ， 该 操作 通过 调用 
register_plkaqev() 国 数 完 成 ; 


err = register_blkdev (FOO MAJOR, "foo" ) ; 

if (err) goto error major_is busy; 
该 明 数 类 似 于 第 十 三 童 的 “分 配 设备 号 ”一 市 中 出 现 的 register_chrdev () 国 数 : 预订 
主 设备 号 FOO_MAJOR 并 将 设备 名 称 /joo 赋 给 它 。 注 意 ， 这 不 能 分 配 次 设备 号 范围 ， 因 为 
役 有 类 似 的 register_chrdev_region() 函 数 ; 此 外 , 预订 的 主 设备 号 和 驱动 程序 的 数 
据 结 构 之 间 也 没有 建立 链接 。register_blkdev () 函数 产生 的 唯一 可 见 的 效果 是 包含 一 
个 新 条 目 ， 该 条 目 位 于 /proc/devices 特殊 文件 的 已 注册 主 设备 号 列表 中 。 


初始 化 自 定义 描述 符 
在 使 用 驱动 程序 之 前 必须 适当 地 初始 化 foo 描 述 符 中 的 所 有 字段 。 为 了 初始 化 与 块 1O 子 
系统 相关 的 字段 ， 设 备 驱 动 程序 主要 执行 如 下 操作 : 


spin_lock_init{(&foo.1lock); 
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foo.gd = alloc Qisk(16) : 
if {!foo.gd) goto error_no_gendisk; 


驱动 程序 首先 初始 化 自 旋 锁 , 然后 分 配 一 个 磁盘 描述 符 。 正如 在 前 面 的 图 14-3 中 所 看 到 
的 ，genqdisk 结 构 是 块 1/0 子 系统 中 最 重要 的 数据 结构 ， 因 为 它 涉及 许多 其 他 的 数据 结 
构 。alloc_disk() 孙 数 也 分 配 一 个 存放 磁盘 分 区 描述 符 的 数组 。 该 函数 所 需要 的 参数 
是 数组 中 hq_struct 结构 的 元 素 个 数 ，16 表示 驱动 程序 可 以 支持 16 个 磁盘 ， 而 每 个 磁 
盘 可 以 包含 15 个 分 区 〈0 分 区 不 使 用 ) 。 


初始 化 gendisk 描述 符 
接 下 来 ， 驱 动 程序 初始 化 gendisk 措 述 符 的 一 些 字段 : 


foo.gd->private _ data = &foo; 

foo.gd->major = FOO_ MAJOR; 

foo.gd->first minor = 0; 

foo.gd->minors = 16; 

set_capacity (foo.gd, foo_ disk capacity_in_sectors), 
strcpy (foo.gd->disk name, "foo"),; 

foo.gd->fops = &foo ops; 


foo 描 述 和 任 的 地 址 存放 在 gendisk 结 构 的 private_qdata 字 段 中 , 因此 被 块 1O 子 系统 当 
作 方 法 调用 的 低级 驱动 程序 国 数 可 以 迅速 地 查找 到 驱动 程序 描述 符 一 一 如 果 驱 动 程序 
可 以 并 发 地 处 理 多 个 磁盘 ， 那 么 这 种 方式 可 以 提高 效率 。set_capacity() 朱 数 将 
capacity 字 段 初始 化 为 以 512 字 节 扁 区 为 单位 的 磁盘 大 小 这 个 值 也 可 能 在 探测 硬 
件 并 询问 磁盘 参数 时 确定 。 





初始 化 块 设备 操作 表 

gendaisk 描 述 符 的 fops 字 段 被 初始 化 为 自 定义 的 块 设备 方法 表 的 地 址 (参见 本 章 前 面 的 
表 14-4) ( 注 3)。 类 似 地 , 设备 驱动 程序 的 foo_ops 表 中 包含 设备 驱动 程序 的 特有 限 数 。 
例如 , 如 果 硬 件 设备 支持 可 移动 磁盘 , 通用 块 层 将 调用 media_changed 方 法 检查 自从 最 
后 一 次 安装 或 打开 该 块 设备 以 来 磁盘 是 否 被 更 换 , 通 常 通过 向 硬件 控制 器 发 送 一 些 低级 
命令 来 完成 该 检查 ,因此 ,每 个 设备 驱动 程序 所 实现 的 medqia_changeda 方 法 都 是 不 同 的 。 


类 似 地 ， 仅 当 通用 块 层 不 知道 如 何 处 理 ioct! 命令 时 才 调 用 ioct1 方 法 。 例 如 ， 当 一 个 
ioct1() 系统 调用 询问 磁盘 构造 时 ， 也 就 是 磁盘 使 用 的 柱 面 数 、 磁 道 数 、 扇 区 数 以 及 磁 
头 数 时 , 通常 调用 该 方法 。 因 此, 每 个 设备 驱动 程序 所 实现 的 ioct1 方 法 也 都 是 不 同 的 。 


注 3: 不 应 该 把 块 设备 方法 和 块 设备 文件 操作 混为一谈 ,参见 本 章 梢 后 “打开 块 设备 文件 ”一 


+ 


no 
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分 配 和 初始 化 请 求 队列 


我 们 勇敢 的 设备 驱动 程序 设计 者 现在 将 要 建立 一 个 请 求 队列 ,该 队列 用 于 存 故 等待 处 理 
的 请 求 。 可 以 通过 如 下 操作 轻松 地 建立 请 求 队列 : 

foo.gd->rg = blk_init qeue (foo_strategy, &foo0.lock); 

If (!foo.gd->rgq) goto error_no_request_ queue; 

blk_ queue hardsect_size{(foo.gd->rd, foo_hard_sector size).: 

blk_ queue max_sectors!(foo.gd->rd, foo_ max_sectors); 


blk_queue max_hw_segments (foo.gd->rd, foo_max_hw_segments}); 
blk_queue max_ phys_segments (foo.gd->rd, foo_max_ phys_segments):; 


blk_init_queue() 消 数 分 配 一 个 请 求 队列 描述 符 并 将 其 中 许多 字段 初始 化 为 缺 省 值 , 它 
接收 的 参数 为 设备 描述 符 的 自 旋 锁 的 地 址 ( foo.gd->rq->queue_lock 字 段 值 ) 和 设备 
驱动 程序 的 策略 例 程 《 参 见 下 一 节 “ 策 略 例 程 ) 的 地 址 ( foo.gd->rq->request_fn 字 
段 值 )。 该 函数 也 初始 化 fco.gd->rq->elevator 字 段 , 并 强制 驱动 程序 使 用 缺 省 的 IO 
调度 算法 。 如 果 设 备 驱 动 程 序 想 要 使 用 其 他 的 调度 算法 ， 可 在 稍 后 覆盖 elevator 字段 
的 地 址 。 

接 下 来 ， 使 用 几 个 辅助 销 数 将 请 求 队列 描述 符 的 不 同 字 7 段 设 为 设备 驱动 程序 的 特征 值 
(参考 表 14-6 中 的 类 似 字 段 )。 


设置 中 断 处 理 程序 


正如 第 四 章 的 “LO 中 断 处 理 ” 一 节 中 所 介绍 的 , 设备 驱动 程序 需要 为 设备 注册 IRQ 线 。 
这 可 以 通过 如 下 操作 完成 : 


request_irgl(foo_irg, foo_interrupt, 
SA_INTERRUPT|SA SHIRQO, "foo", NULL).; 


foo_interrupt () 销 数 是 设备 的 中 断 处 理 程序 ， 我 们 将 在 本 章 稍 后 的 “中 断 处 理 程序 ” 
一 刷 中 讨论 它 的 一 些 特 性 。 


注册 磁盘 


最 后 , 设备 驱动 程序 的 所 有 数据 结构 已 经 准备 好 了 : 初始 化 阶段 的 最 后 一 步 就 是 “注册 ” 
和 激活 磁盘 。 这 可 以 简单 地 通过 执行 下 面 的 操作 完成 : 


add_disk (foo.gd):; 
adqd_disk() 范 数 接收 gendisk 摘 述 符 的 地 址 作为 其 参数 ， 主 要 执行 下 列 操作 : 
1. 设置 gd->flags 的 GENHD_FL_UP 标志 。 


2. ”调用 kobj_map() 建 立 设备 驱动 程序 和 设备 的 主 设备 号 (连同 相关 范围 内 的 次 设备 
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号 ) 之 间 的 连接 (参见 第 十 三 章 的 “字符 设备 驱动 程序 ”一 节 ; 注意 ,在 这 种 情况 
下 ，kobject 映射 域 由 bdev_map 变量 表示 )。 

3， ”注册 设备 驱动 程序 模型 的 gendisk 摘 述 符 中 的 kobject 结 构 ， 它 作为 设备 驱动 程序 
处 理 的 一 个 新 设备 (例如 /sys/block/foo ) 。 


4. 如 果 需 要 , 扫 瓜 磁盘 中 的 分 区 表 ， 对 于 查找 到 的 每 个 分 区 , 适当 地 初始 化 foo.g9- 
>part 数组 中 相应 的 ha_struct 措 述 符 。 同时 注册 设备 驱动 程序 模型 中 的 分 区 ( 例 
gh /sys/block/foo/foo! ) 。 


5. 注册 设备 驱动 程序 模型 的 请 求 队列 描述 符 中 内 航 的 kobject 结构 (例如 /sys/block/ 
foo/queue ) 。 


一 日 adqa_dqisk() 返 回 ， 设 备 驱 动 程序 就 可 以 工作 了 。 进 行 初 始 化 的 国 数 终止 ;策略 例 
程 和 中 断 处 理 程序 开始 处 理 WO 调度 程序 传送 给 设备 驱动 程序 的 每 个 请 求 。 


策略 例 程 


策略 例 程 是 块 设备 驱动 程序 的 一 个 函数 或 一 组 函数 , 它 与 硬件 块 设备 之 加 相互 作用 以 满 
足 调度 队列 中 所 汇集 的 请 求 。 通 过 请 求 队 列 描述 符 中 的 request_fn 方 法 可 以 调用 策略 
例 程 一 一 例如 前 面 一 节 介 绍 的 foo_strategy () 国 数 , MO 调度 程序 层 将 请 求 队 列 摘 述 符 
q 的 地 址 传递 给 该 函数 。 


如 前 所 述 , 在 把 新 的 请 求 插入 到 空 的 请 求 队列 后 , 策略 例 程 通常 才 被 启动 。 只 要 块 设备 
驱动 程序 被 激活 ， 就 应 该 对 队列 中 的 所 有 请 求 都 进行 处 理 ， 直 到 队列 为 空 才 结 束 。 


策略 例 程 的 简单 实现 如 下 : 对 于 调度 队列 中 的 每 个 元 素 , 与 块 设 备 控制 器 相互 作用 共同 
为 请 求 服务 , 等 待 直到 数据 传送 完成 ， 然 后 把 已 经 服务 过 的 请 求 从 队列 中 删除 ， 继 续 处 
理 调 度 队 列 中 的 下 一 个 请 求 。 


这 种 实现 效率 并 不 高 。 即 使 假设 可 以 使 用 DMA 传送 数据 ， 策 略 例 程 在 等 待 MO 操作 完 
成 的 过 程 中 也 必须 自行 挂 起 。 也 就 是 说 策略 例 程 应 该 在 一 个 专门 的 内 核 线程 上 执行 (我 
们 不 想 处 罚 毫 不 相关 的 用 户 进程 )。 而 且 ， 这 样 的 驱动 程序 也 不 能 支持 可 以 一 次 处 理 多 
个 WO 数据 传送 的 现代 磁盘 控制 器 。 


因此 ,很 多 块 设备 驱动 程序 都 采用 如 下 策略 ， 


。 ”策略 例 程 处 理 队 列 中 的 第 一 个 请 求 并 设置 块 设备 控制 苗 ,以便 在 数据 传送 完成 时 可 
以 产生 一 个 中 断 。 然 后 策略 例 程 就 终止 。 


。 ” 当 磁 盘 控 制 融 产生 中 断 时 , 中 断 控制 器 重新 调用 策略 例 程 (通常 是 直接 的 , 有 时 也 
通过 激活 一 个 工作 队列 )。 策 略 例 程 要 么 为 当前 请 求 再 启动 一 次 数据 传送 ,要么 当 
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”请 求 的 所 有 数据 块 已 经 传送 完成 时 ,把 该 请 求 从 调度 队列 中 删除 然后 开始 处 理 下 一 
个 请 求 。 


请 求 是 由 儿 个 bio 结 构 组 成 的 , 而 每 个 bio 结 构 又 是 由 几 个 段 组 成 的 。 基本 上 , 块 设备 驱 
动 程序 以 以 下 两 种 方式 使 用 DMA.: 


。 ”驱动 程序 建立 不 同 的 DMA 传 送 方式 , 为 请 求 的 每 个 bio 结 构 中 的 每 个 段 进 行 服务 。 


。 ”了 驱动 程序 建立 一 种 单独 的 分 散 -聚集 DMA 传送 方式 ， 为 请 求 的 所 有 bio 中 的 所 有 
段 服 务 。 


最 后 , 设备 驱动 程序 策略 例 程 的 设计 依赖 块 控 制 器 的 特性 。 每 个 物理 块 设备 都 有 不 同 于 
其 他 物理 块 设备 的 固有 特性 〈 例 如 ,软盘 驱动 程序 把 磁道 上 的 块 分 组 为 磁道 ， 一 次 单独 
的 MO 操作 传送 整个 磁道 ) ,因此 对 设备 驱动 程序 怎样 为 每 个 请 求 进行 服务 而 做 一 般 假 设 
并 没有 多 大 意义 。 


在 我 们 的 例子 中 ，foo_strategy () 策 略 例 程 应 该 执行 以 下 操作 ， 


1. ”通过 调用 1/O 调度 程序 的 辅助 国 数 elv_next_reaquest () 从 调度 队列 中 获取 当前 的 
请 求 。 如 果 调 度 队 列 为 空 ， 就 结束 这 个 策略 例 程 ; 


redq = elv_ next_request (G) ; 
if (!req) return; 


2. ”执行 blk_fs_request 宏 检查 是 否 设 置 了 请 求 的 REQ_CMD 标 志 ， 也 即 ， 请求 是 否 
包含 一 个 标准 的 读 或 写 操作 : 


If (ibljk_fs_request (reqg)) 
goto handle_special_regquest; 


3. ”如 果 块 设备 控制 器 支持 分 散 - 聚集 DMA， 那 么 对 磁盘 控制 器 进行 编程 ， 以 便 为 整 
个 请 求 执行 数据 传送 并 在 传送 完成 时 产生 一 个 中 断 ,blk_rq_map_sg () 辅助 函数 返 
可 一 个 可 以 立即 被 用 来 启动 数据 传送 的 分 散 - 聚集 链表 。 


4. 否则， 设备 驱动 程序 必须 一 段 一 段 地 传送 数据 。 在 这 种 情形 下 ， 策 略 例 程 执 行 
rdq_for_each_bio 和 bio_for_each_segment 两 个 宕 , 分 别 遍 历 bio 链 表 和 每 个 bio 
中 的 段 链表 。 


rgq_for _ each_bio (bilio, rq) 
bio_for_ each segment (bvec, bio, 1i) { 

/* transfer the i-th segment bvec */ 
local_irq savet(tflags) : 
addr = kmap _ atomic(bpvec->bv_ page，KM_BIO_SRC_IRO) ; 
foo start_dma_transfer (addr+bvec->bv_offset, bvec->bv len}); 
kunmap_atomicl(bvec->bv_page, KM _ BIO_SRC_IRQ); 
local_irg restore(flags)},; 
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如 果 要 传送 的 数据 在 高 端 内 存 中 ， 那 么 kmap_atomic() 和 kunmap_atomic() 两 个 
国 数 就 是 必需 的 。foo_start_dma_transfer() 国 数 对 硬件 设备 进行 编程 , 以便 启 
动 DMA 数据 传送 并 在 1/O 操作 完成 时 产生 一 个 中 断 。 


5. 返回 。 


中 断 处 理 程序 


块 设备 驱动 程序 的 中 断 处 理 程序 是 在 DMA 数据 传送 结束 时 被 激活 的 。 它 检查 是 否 已 经 
传送 完 请 求 的 所 有 数据 块 。 如 果 是 ,中断 处 理 程序 就 调用 策略 例 程 处 理 调度 队列 中 的 下 
一 个 请 求 。 否则 , 中 断 处 理 程序 更 新 请 求 描述 符 的 相应 字段 并 调用 策略 例 程 处 理 还 没有 
完成 的 数据 传送 。 


我 们 的 设备 驱动 程序 foo 的 中 断 处 理 程序 的 一 个 典型 片段 如 下 : 


irgreturn_t foo_interrupt (int irq, void *dev_id, struct pt_regs *regs) 
{ 
struct foo dev t *p = (struct foo dev_t *) dev_id; 
Struct regquest_queue *rgq = p->gd->rq; 
[..。.] 
If ('end_ that_request_firstlrgq, uptodate, nr_sectors)) 1 
blkdev_dequeue_ request (rq); 
end_ that_request_last (rg); 
} 
rq->request_fnl(ra); 
[...] 
return IRO_ HANDLED; 
} 


end_that_request_first() 和 end that_request_last() 两 个 冰 数 共同 承担 结束 一 
个 请 求 的 任务 。 


engd_that_request_first () 函 数 接收 的 参数 为 一 个 请 求 描述 符 、 一 个 指示 DMA 数据 
传送 成 功 完 成 的 标志 以 及 DMA 所 传送 的 遍 区 数 (end_that_request_chunk() 函数 类 
似 , 只 不 过 该 函数 接收 的 是 传送 的 字 节 数 而 不 是 岛 区 数 )。 本 质 上 , 它 扫 描 请 求 中 的 bio 
结构 以 及 每 个 bio 中 的 段 ， 然 后 采用 如 下 方式 更 新 请 求 描述 符 的 字段 值 : 

。 ”修改 bio 字段 使 其 指向 请 求 中 的 第 一 个 未 完成 的 bio 结构 。 

。 ”修改 未 完成 bio 结构 的 bi_idx 字 段 使 其 指向 第 一 个 未 完成 的 段 。 

。. ”修改 未 完成 段 的 bv_offset 和 bv_len 两 个 字段 使 其 指定 仍 需 传送 的 数据 。 


该 函数 也 在 每 个 已 经 完成 数据 传送 的 bio 结构 上 调用 bio_endioe () 国 数 。 
如 果 已 经 传送 完 请 求 中 的 所 有 数据 块 ， 那 么 end_that_request_first () 返 回 0， 否则 
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返回 1。 如 果 返 回 值 是 1， 则 中 断 处 理 程序 重新 调用 策略 例 程 ， 继 续 处 理 该 请 求 。 否 则 ， 
中 断 处 理 程序 把 请 求 从 请 求 队列 中 删除 (主要 由 lblkdev_dequeue_request () 完 成 ) , 然 
后 调用 end_that_request_last () 辅 助 图 数 ， 并 再 次 调用 策略 例 程 处 理 调度 队列 中 的 
下 一 个 请 求 。 


end_that_request_last () 函 数 的 功能 是 更 新 一 些 磁盘 使 用 统计 数 ， 把 请 求 描 述 符 从 
IO 调度 程序 rq->elevator 的 调度 队列 中 删除 ， 唤 醒 等 待 请 求 描述 符 完成 的 任 一 睡眠 
进程 ， 并 释放 删除 的 那个 描述 符 。 


打开 块 设备 文件 


通过 描述 打开 一 个 块 设备 文件 时 VFS 所 执行 的 操作 ， 我 们 将 总 结 本 章 的 内 容 。 


每 当 一 个 文件 系统 被 映射 到 磁盘 或 分 区 上 时 , 每 当 激 活 一 个 交换 分 区 时 , 每 当 用 户 态 进 
程 向 块 设备 文件 发 出 一 个 open () 系 统 调 用 时 ， 内 核 都 会 打开 一 个 块 设备 文件 。 在 所 有 
情况 下 ， 内 核 本 质 上 执行 相同 的 操作 : 寻找 块 设备 描述 符 ( 如 果 块 设备 没有 在 使 用 ， 那 
么 就 分 配 一 个 新 的 描述 符 )， 为 即将 开始 的 数据 传送 设置 文件 操作 方法 。 


我 们 已 经 在 第 十 三 章 的 “设备 文件 的 VFS 处理” 一 节 描 述 了 当 一 个 设备 文件 被 打开 了 时， 
dentry_open() 国 数 是 如 何 定制 文件 对 象 的 方法 。 它 的 E_op 字段 设置 为 表 
def_blk_fops 的 地 址 ， 该 表 的 内 容 如 表 14-10 所 示 。 


表 14-10: 缺 省 的 块 设备 文件 操作 ( 表 def_blk_fops) 


方法 用 于 块 设备 文件 的 函数 
Open blkdev_open ( ) 

release D1kdqev close () 

llseek block_llseek () 

read generic_file_read!() 
write plkdev_file writet) 
alo_read generic file aio _ read ( ) 


alio write 


blkdev_file alio write) 


mmap generic_file_ mmap!() 
fsync block_fsync ()} 
loctl] Dlock_ loctl() 


compat—-ioctl 


readyv 


compat_blkdev_ioctl() 


generic file readyv!() 
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表 14-10: 缺 省 的 块 设备 文件 操作 ( 表 def_blk_fops) ( 续 ) 


方法 用 于 块 设 备 文 件 的 函数 
writev generic_file write nolock!() 
sendfile generic file_ sendfile!() 


我 们 仅仅 考虑 open 方 法 ， 它 由 aentry_open() 国 数 调用 。blkaqev_open () 接 收 inode 和 
filp 作 为 其 参数 , 它们 分 别 存放 了 索引 节点 和 文件 对 象 的 地 址 ; 该 国 数 本 质 上 执行 下 列 
操作 ; 


1. 执行 ba_acauire (inode) 从 而 获得 块 设 备 描述 符 bdev 的 地 址 。 该 冰 数 接收 索引 
三 点 对 象 的 地 址 并 执行 下 列 主要 步骤 : 


a. 检查 索引 节点 对 象 的 inodqe->i_bdqev 字 段 是 否 不 为 NULL 如 果 是 ， 表明 块 设 
备 文件 已 经 打开 了 , 该 字段 存放 了 相应 块 描述 符 的 地 址 。 在 这 种 情况 下 , 增加 
与 块 设备 相关 联 的 bdev 特 殊 文件 系统 的 ijinode->i_bdev->bqd_inode 索 引 节 点 
的 引用 计数 器 的 值 ， 并 返回 描述 符 ijnode->i_bdev 的 地 址 。 


b. 块 设备 文件 没有 被 打开 的 情况 。 根据 块 设备 文件 的 主 设备 号 和 次 设备 号 (参见 
本 童 前 面 的 “ 块 设备 ”一 节 ), 执行 bdget ( inodqe->i_rdev) 获 取 块 设备 描述 
符 的 地 址 。 如 果 描 述 符 不 存在 ，baget () 就 分 配 一 个 ; 但 是 ， 要 注意 的 是 描述 
符 可 能 已 经 存在 ， 例 如 其 他 块 设 备 文件 已 经 访问 了 该 块 设备 。 

c. 将 块 设 备 描述 符 的 地 址 存放 在 ijnode->i_bdev 中 ,以 便 加 速 将 来 对 相同 块 设 备 
文件 的 打开 操作 。 

d， 将 inode->i_mapping 字段 设置 为 bdev 索引 节点 中 相应 字段 的 值 .该 字段 指 
向 地 址 空间 对 象 , 我 们 将 在 第 十 五 章 的 “address_space 对 象 ” 一 节 中 介绍 这 个 
对 象 。 

e. 把 索引 节点 插入 到 由 lbdev->b9_inodes 确 立 的 块 设 备 描述 符 的 已 打开 索引 节点 
链表 中 。 

f. 返回 摘 述 符 bdev 的 地 址 。 

2. 将 filp->i_mapping 字 段 设 置 为 inodqe->i_mapping 的 值 (参见 前 面 的 第 1d 步 )。 
3. 获取 与 这 个 块 设备 相关 的 gendisk 描述 符 的 地 址 : 


disk = get_aendisk(bdev->bd dev, &part), 


如 果 被 打开 的 块 设备 是 一 个 分 区 , 则 返回 的 索引 值 存放 在 本 地 变量 part 中 ， 否则 ， 
part 为 0。get_gendisk() 国 数 在 kobject 映射 域 bpdev_map 上 简单 地 调用 
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kobj_lookup() 来 传递 设备 的 主 设备 号 和 次 设备 号 (参见 本 章 前 面 的 “注册 和 初始 
化 设备 驱动 程序 ”一 节 )。 


4. ”如 果 bdev->bd_openers 的 值 不 等 于 0， 表 明 块 设备 已 经 被 打开 了 。 检 查 bdev 


->bqd_contains 字段 


Aa, 


如 果 值 等 于 bdaev， 那么 块 设备 是 一 个 整 盘 ; 调用 块 设备 方法 bdev->bd_disk 
->fops->open (如 果 定 义 了 )， 然 后 检查 bdev->bd_invalidated 字段 的 值 ， 
如 果 需 要 ， 调 用 rescan_partitions() 国 数 (参见 后 面 的 第 6a 步 和 6c 步 )。 


如 果 不 等 于 bdev， 那 么 块 设备 是 一 个 分 区 : 增加 bdev->bd_contains 
->bd_part_count 计数 器 的 值 。 然 后 跳 到 第 8 步 。 


5. 这 里 块 设备 是 第 一 次 被 访问 。 初 始 化 baev->ba_aqaisk 为 gendqisk 描 述 符 的 地 址 Qisk。 
6. ”如 果 块 设备 是 一 个 整 盘 (part 等 于 0)， 则 执行 下 列子 步骤 : 


a. 


如 果 定 义 了 disk->fops->open 块 设备 方法 ,就 执行 它 : 该 方法 是 由 块 设 备 驱 
动 程序 定义 的 定制 国 数 ， 它 执行 任何 特定 的 最 后 一 分 钟 初始 化 。 

从 disk->queue 请 求 队列 的 hardsect_size 字 段 中 获取 局 区 大 小 ( 字 节 数 )， 
使 用 该 值 适 当地 设置 baev->pbaq_block_size 和 bdqev->bq_inodqe->i_ blkbits 
两 个 字段 。 同 时 用 从 aisk->capacity 中 计算 来 的 磁盘 大 小 设置 bdev- 
>bd_inode->i_size 字段 。 

如 果 设 置 了 bdev->bd_invalidated 标 志 , 那么 调用 rescan_partitions() 扫 
描 分 区 表 并 更 新 分 区 描述 符 。 该 标志 是 由 check_dqisk_change 块 设备 方法 设 
置 的 ， 仅 适用 于 可 移动 设备 。 


7. 否则 如 果 块 设备 是 一 个 分 区 ， 则 执行 下 列子 步 又 


a. 


f. 


再 次 调用 bdget () 一 一 这 次 是 传递 qisk->first_minor 次 设备 号 一 一 获取 
整 盘 的 块 描述 符 地 址 whole。 


对 整 盘 的 块 设备 描述 符 重复 第 3 步 ~ 第 6 步 ， 如 果 需 要 则 初始 化 该 描述 符 。 
将 bdev->bd_contains 设置 为 整 盘 质 述 符 的 地 址 。 
增加 whole->bd_part_count 的 值 从 而 说 明 磁 盘 分 区 上 新 的 打开 操作 。 


用 disk->part [part-1] 中 的 值 设置 bdev->bqd_part， 它 是 分 区 描述 符 
hqd_struct 的 地 址 。 同 样 ， 执行 kobject_get (&bdev->bqd_part->kobj) 增 加 
分 区 引用 计数 器 的 值 。 


与 第 6b 步 中 的 一 样 ， 设 置 索引 节点 中 表示 分 区 大 小 和 局 区 大 小 的 字段 。 


8. ”增加 bdev->bqd_openers 计数 絮 的 值 。 


594 第 十 四 章 


9. ”如 果 块 设备 文件 以 独占 方式 被 打开 (设置 了 filp->f_flags 中 的 0_EXCL 标 志 )， 
那么 调用 ba_claim( bdaev，filp) 设 置 块 设 备 的 持 有 者 〈 参 见 本 章 前 面 的 “ 块 设 
备 ” 一 节 )。 万 一 出 错 块 设备 已 经 有 一 个 拥有 者 一 一 释放 该 块 设 备 描述 符 并 
返回 一 个 错误 码 -EBUSY。 


10， 返回 0 (成 功 ) 终止。 
blkdev_open() 函 数 一 旦 终止 ，open() 系统 调用 如 往常 一 样 继续 进 行 。 对 已 打开 的 文件 


上 将 来 发 出 的 每 个 系统 调用 都 将 触发 一 个 缺 省 的 块 设备 文件 操作 。 正 如 我 们 将 在 第 十 六 
章 中 看 到 的 ,采用 向 通用 块 层 提 交 请 求 的 方式 进行 块 设备 的 每 次 数据 传送 都 是 高 效率 的 。 
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正如 在 第 十 二 章 的 “通用 文件 模型 "一 市 中 提 到 的 那样 , 磁盘 高 速 缓存 是 一 种 软件 机 制 ， 
它 允 许 系 统 把 通常 存放 在 磁盘 上 的 一 些 数据 保留 在 RAM 中 ,以 便 对 那些 数据 的 进一步 
访问 不 用 再 访问 磁盘 而 能 尽快 得 到 满足 。 


因为 对 同一 磁盘 数据 的 反复 访问 频繁 发 生 , 所 以 磁盘 高 速 缓存 对 系统 性 能 至 关 重 要 。 与 
磁盘 交互 的 用 户 态 进 程 有 权 反 复 请 求 读 或 写 同 一 磁盘 数据 。 此 外 , 不 同 的 进程 可 能 也 需 
要 在 不 同 的 时 间 访 问 相 同 的 磁盘 数据 。 例 如 , 你 可 以 使 用 cp 命令 拷贝 一 个 文本 文件 , 然 
后 调用 你 喜欢 的 编辑 器 修改 它 。 为 了 满足 你 的 请 求 , 命令 sheii 将 创建 两 个 不 同 的 进程 ， 
它们 在 不 同 的 时 间 访 问 同 一 个 文件 。 


我 们 曾 在 第 十 二 章 提 到 过 其 他 的 磁盘 高 速 缓存 目录 项 高 速 缓存 和 索引 市 点 高 速 缓存 ， 
前 者 存放 的 是 描述 文件 系统 路 径 名 的 目录 项 对 象 , 而 后 者 存放 的 是 描述 磁盘 索引 布点 的 
索引 三 点 对 象 。 不 过 要 注意 , 目录 项 对 象 和 索引 结 市 点 对 象 不 只 是 存放 一 些 磁盘 块 内 容 
的 缓冲 区 ; 由 此 而 知 , 目录 项 高 速 缓存 和 索引 市 点 高 速 缓存 就 像 磁盘 高 速 缓存 那样 相当 
独特 。 


本 章 介绍 页 高 速 缓存 一 一 一 种 对 完整 的 数据 页 进行 操作 的 磁盘 高 速 绥 存 。 我 们 在 第 一 
节 介 绍 页 高 速 缓存 。 然 后 ,我们 在 “把 块 存放 在 页 高 速 缓存 中 ”一 节 中 讨论 如 何 使 用 页 
高 速 缓 存 快速 检索 单独 的 数据 块 (例如 超级 块 和 索引 节点 )， 这 是 提高 虚拟 文件 系统 和 
磁盘 文件 系统 速度 的 关键 特征 。 接 下 来 ,我 们 在 “把 脏 页 写 入 磁盘 ”一 布 描述 如 何 把 页 
高 速 缓存 中 的 胜 页 写 回 到 磁盘 中 。 最 后 ， 我 们 在 “sync()、fsync() 和 fdatasync() 系 统 调 
用 ”一 节 中 介绍 一 些 系统 调用 ， 让 用 户 刷新 页 高 速 缓存 的 内 容 来 更 新 磁盘 内 容 。 


5 人) 
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页 高 速 缓存 

页 高 速 缓存 (page cache) 是 Linux 内 核 所 使 用 的 主要 磁盘 高 速 缓存 。 在 绝 大 多 数 情况 
下 , 内 核 在 读 写 磁盘 时 都 引用 页 高 速 缓存 。 新 页 被 追加 到 页 高 速 缓存 以 满足 用 户 态 进程 
的 读 请 求 。 如 果 页 不 在 高 速 缓存 中 , 新 页 就 被 加 到 高 速 缓存 中 ,然后 用 从 磁盘 读 出 的 数 
据 填充 它 。 如 果 内 存 有 足够 的 空 几 空间, 就 让 该 页 在 高 速 缓存 中 长 期 保留 ,使 其 他 进程 
髓 使 用 该 页 时 不 再 访问 磁盘 。 


同样 ， 在 把 一 页 数据 写 到 块 设 备 之 前 ， 内 核 首先 检查 对 应 的 页 是 否 已 经 在 高 速 缓存 中 ， 
如 果 不 在 ， 就 要 先 在 其 中 增加 一 个 新 项 ， 并 用 要 写 到 磁盘 中 的 数据 填充 该 项 。1O 数据 
的 传送 并 不 是 马上 开始 , 而 是 要 延迟 几 秒 之 后 才 对 磁盘 进行 更 新 , 从 而 使 进程 有 机 会 对 
要 写 人 磁盘 的 数据 做 进一步 的 修改 〈 换 名 话说， 就 是 内 核 执行 延迟 的 写 操作 )。 


内 核 的 代码 和 内 核 数据 结构 不 必 从 磁盘 读 , 也 不 必 写 入 磁盘 ( 注 1), 因此 , 页 高 速 缓存 
中 的 页 可 能 是 下 面 的 类 型 


。 ”含有 普通 文件 数据 的 页 。 在 第 十 六 章 我 们 将 描述 内 核 如 何 处 理 它们 的 读 、 写 和 内 存 
映射 操作 。 


。 “含有 目录 的 页 。 在 第 十 八 章 我 们 将 会 看 到 ，Linux 采用 与 普通 文件 类 似 的 方式 操作 
目录 文件 。 


。 ”含有 直接 从 块 设备 文件 ( 跳 过 文件 系统 层 ) 读 出 的 数据 的 页 。 正如 我 们 将 在 第 十 六 
章 讨论 的 那样 ， 内 核 处 理 这 种 页 与 处 理 含有 普通 文件 的 页 使 用 相同 的 函数 集合 。 


。 ”含有 用 户 态 进程 数据 的 页 , 但 页 中 的 数据 已 经 被 交换 到 磁盘 。 在 第 十 七 章 我 们 将 会 
看 到 , 内 核 可 能 会 强行 在 页 高 速 缓存 中 保留 一 些 页 面 , 而 这 些 页 面 中 的 数据 已 经 被 
写 到 交换 区 (可 能 是 普通 文件 或 磁盘 分 区 ) 。 


。 ”属于 特殊 文件 系统 文件 的 页 , 如 共享 内 存 的 进程 间 通 信 (Interprocess Communication， 
IPC) 所 使 用 的 特殊 文件 系统 shm (参见 第 十 九 章 )。 


正如 你 所 看 到 的 ， 页 高 速 缓存 中 的 每 个 页 所 包含 的 数据 肯定 属于 某 个 文件 。 这 个 文件 
(或 者 更 准确 地 说 是 文件 的 索引 节点 ) 就 称 为 页 的 所 有 者 (owner)。( 在 第 十 七 章 我 们 会 
了 解 到 ， 含 有 换 出 数据 的 页 都 属于 同一 个 所 有 者 ， 即 使 它们 涉及 不 同 的 交换 区 。) 








1 如 果 要 在 关机 后 恢复 系统 的 所 有 状态 (其 实 几 乎 不 会 出 现 这 种 情况 ), 可 以 执行 “ 挂 起 到 
磁盘 ” 谨 作 (hibernation) ,把 RAM 的 全 部 内 容 保 存 到 交 撞 区 ， 对 此 我 们 不 做 更 多 的 讨 
论 。 
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几乎 所 有 的 文件 读 和 写 操 作 都 依赖 于 页 高 速 缓存 .只 有 在 O_DIRECT 标 志 被 置 位 而 进程 
打开 文件 的 情况 下 才 会 出 现 例外 ， 此 时 ，LO 数据 的 传送 绕 过 了 页 高 速 组 而 使 用 了 进程 
用 户 态 地 址 空间 的 缓冲 区 (参见 第 十 六 章 “ 直接 WO 传送 ”一 节 ); 少数 数据 库 应 用 软件 
为 了 能 采用 自己 的 磁盘 高 速 缓存 算法 而 使 用 了 O_DIRECT 标志 。 


内 核 设 计 者 实现 页 高 速 缓存 主要 为 了 福 足 下 面 两 种 需要 : 


。 ”快速 定位 含有 给 定 所 有 者 相关 数据 的 特定 页 ,为 了 尽 可 能 充分 发 挥 页 高 速 缓存 的 优 
势 ， 对 它 应 该 采用 高 速 的 搜索 操作 。 


。 ”记录 在 读 或 写 页 中 的 数据 时 应 当 如 何 处 理 高 速 缓存 中 的 每 个 页 。 例 如 ， 从 普通 文 
件 , 块 设备 文件 或 交换 区 读 一 个 数据 页 必须 用 不 同 的 实现 方式 , 因此 内 核 必须 根据 
页 的 所 有 者 选择 适当 的 操作 。 


页 高 速 缓存 中 的 信息 单位 显然 是 一 个 完整 的 数据 页 。 在 第 十 八 章 我 们 会 看 到 , 一 个 页 中 
包含 的 磁盘 块 在 物理 上 不 一 定 是 相 邻 的 , 所 以 不 能 用 设备 号 和 块 号 来 识别 它 , 取而代之 
的 是 , 通过 页 的 所 有 者 和 所 有 者 数据 中 的 索引 (通常 是 一 个 索引 节点 和 在 相应 文件 中 的 
偏 移 量 ) 来 识别 页 高 速 缓存 中 的 页 。 


address_space 对 象 


页 高 速 缓存 的 核心 数据 结构 是 address_space 对 象 , 它 是 一 个 退 入 在 页 所 有 者 的 索引 节 
点 对 象 中 的 数据 结构 ( 注 2)。 高 速 缓存 中 的 许多 页 可 能 属于 同一 个 所 有 者 ， 从 而 可 能 被 
链接 到 同一 个 adqdqress_space 对 象 。 该 对 象 还 在 所 有 者 的 页 和 对 这 些 页 的 操作 之 间 建 立 
起 链接 关系 。 


每 个 页 描述 符 都 包括 把 页 链接 到 页 高 速 缓存 的 两 个 字段 mapping 和 index (参见 第 八 章 
“页 描述 符 ” 一 节 )。mapping 字 段 指向 拥有 页 的 索引 节点 的 address_space 对 象 , index 
字段 表示 在 所 有 者 的 地 址 空间 中 以 页 大 小 为 单位 的 偏 移 量 ,也 就 是 在 所 有 者 的 磁盘 映像 
中 页 中 数据 的 位 置 。 在 页 高 速 缓 存 中 查找 页 时 使 用 这 两 个 字段 。 


值得 庆幸 的 是 ， 页 高 速 缓存 可 以 包含 同一 磁盘 数据 的 多 个 副本 。 例 如 ， 可 以 用 下 述 方式 
访问 普通 文件 的 同一 4KB 的 数据 块 : 


。 ” 读 文 件 ， 因此， 数据 就 包含 在 普通 文件 的 索引 节操 所 拥有 的 页 中 。 


注 2: 页 被 换 出 可 能 会 引起 缺 页 异常 。 在 第 十 七 章 我 们 将 看 到 ， 这 些 被 换 出 的 页 拥有 不 在 任何 
索引 节点 中 的 公共 address space 对 象 。 
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。 ”从 文件 所 在 的 设备 文件 (磁盘 分 区 ) 读 取 块 , 因此 , 数据 就 包含 在 块 设备 文件 的 主 
索引 节点 所 拥有 的 页 中 。 


因此 , 两 个 不 同 adaaress_space 对 象 所 引用 的 两 个 不 同 的 页 中 出 现 了 相同 的 磁盘 数据 。 


address_space 对 象 包含 如 表 15-1 所 示 的 字段 。 


表 15-1; address_space 对 各 的 字段 


类 型 


struct inode * 


Struct 


radix tree root 
spinlock_t 
unsigned int 


Struct 


prio_tree root 
struct list_head 
spinlock_t 
unsigned int 
unsigned long 


unsigned long 


Struct address_ space_ 


Operations * 
unsigned long 


struct 
backing_dev_info * 


spinlock_t 


struct list head 


struct 


address_space * 


字段 


host 


page_tree 


tree_lock Spin lock 
i_mmap_writable 


i_mmap 


i_rmmap_ nonlinear 
i_rmmap_lock 
truncate_count 
nrpages 
writeback_ index 


a_ops 


flags 


backing_dev_info 


private_lock 


private_ list 


assoc_mapping 


说 明 

指向 拥有 该 对 象 的 索引 节点 的 指针 (如 
果 存 在 ) 

表示 拥有 者 页 的 基 树 (radix tree) 的 根 


保护 基 树 的 自 旋 锁 
地 址 空间 中 共享 内 存 映 射 的 个 数 
radix 优先 搜索 树 的 根 (参见 第 十 七 章 ) 


地 址 空间 中 非 线性 内 存 区 的 链表 
保护 radix 优先 搜索 树 的 自 旋 锁 

截断 文件 时 使 用 的 顺序 计数 器 

所 有 者 的 页 总 数 

最 后 一 次 回 写 操作 所 作用 的 页 的 索引 
对 所 有 者 页 进行 操作 的 方法 


错误 位 和 内 存 分 配器 的 标志 

指 同 拥有 所 有 者 数据 的 块 设备 的 
backing_dev_info 的 指针 

通常 是 管理 private_1list 链表 时 使 用 
的 自 旋 锁 

通常 是 与 索引 市 点 相 关 的 则 接 块 的 脏 缓 
钟 区 的 链表 

通常 是 指向 间接 块 所 在 块 设备 的 
address_space 对 象 的 指针 


如 果 页 高 速 缓存 中 页 的 所 有 者 是 一 个 文件 ,adqdqress_space 对 象 就 伐 和 人 在 VFS 索 引 节 点 
对 象 的 i_data 字 段 中 。 索引 节点 的 i_mapping 字 7 段 总 是 指向 索引 布点 的 数据 页 所 有 者 的 
aqqress_space 对 象 。adqdqress_space 对 象 的 host 字 段 指向 其 所 有 者 的 索引 节点 对 象 。 
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因此 ， 如 果 页 属于 一 个 文件 (存放 在 Ext3 文 件 系 统 中 )， 那么 页 的 所 有 者 就 是 文件 的 索 
引 节 点 ， 而 且 相 应 的 address_space 对 象 存 放 在 VFS 索引 市 点 对 象 的 i_data 字 段 中 。 
索引 节点 的 i_mapping 字 段 指 向 同一 个 索引 节点 的 i_data 字 有 段 , 而 address_space 对 
象 的 host 字段 也 指向 这 个 索引 节点 。 


不 过 ， 有 些 时 候 情 况 会 更 复杂 。 如 果 页 中 包含 的 数据 来 自 块 设备 文件 , 即 页 含有 存放 着 
块 设备 的 “原始 ”数据 , 那么 就 把 addqress_space 对 象 颈 人 到 与 该 块 设备 相关 的 特殊 文 
件 系统 bdev 中 文件 的 “ 主 ” 索 引 布 点 中 ( 块 设备 描述 符 的 ba_inode 字 段 引 用 这 个 索引 
节点 ， 参 见 第 十 四 章 “ 块 设备 ”一 节 )。 因 此 ， 块 设备 文件 对 应 索引 市 点 的 i_mapping 
字段 指向 主 索引 节点 中 的 aqqress_space 对 象 。 相 应 地 ，aqqress_space 对 象 的 host 
字段 指向 主 索引 布点 。 这样 , 从 块 设 备 读 取 数据 的 所 有 页 具有 相同 的 address_space 对 
象 ， 即 使 这 些 数据 位 于 不 同 的 块 设 备 文件 。 


i _mmap、i_mmap_writablje.、 i_mmap_nonlinear 和 i_mmap_lock 字 7 段 涉及 内 存 上 映射 和 
反映 射 ， 我 们 将 在 第 十 六 、 十 七 章 讨论 这 些 主题 。 


backing_dev_info 字 7 段 指 向 backing_dev_info 描 述 符 ， 后 者 是 对 所 有 者 的 数据 所 在 
块 设备 进行 有 关 描 述 的 数据 结构 。 正 如 在 第 十 四 章 “ 请 求 队列 描述 符 ” 一 节 所 摘 述 的 ， 
backing_dev_info 结 构 通 常 娩 入 在 块 设备 的 请 求 队列 描述 符 中 。 


private_list 字 段 是 普通 链表 的 首部 ,文件 系统 在 实现 其 特定 功能 时 可 以 随意 使 用 。 例 
如 ，Ext2 文件 系统 利用 这 个 链表 收集 与 索引 节点 相关 的 “间接 ” 块 的 胜 缓冲 区 (参见 第 
十 八 章 “数据 块 寻 址 ”一 市 )。 当 刷新 操作 把 索引 布点 强行 写 入 磁盘 上 时， 内核 也 同时 刷 
新 该 链表 中 的 所 有 缓冲 区 ,此 外 , Ext2 文 件 系统 在 assoc_mapping 字 段 中 存放 指向 间接 
块 所 在 块 设备 的 aqdqress_space 对 象 , 并 使 用 assoc_mapping->private_lock 自 旋 铅 
保护 多 处 理 器 系统 中 的 间接 块 链表 。 


address_space 对 象 的 关键 字段 是 a_ops, 它 指向 一 个 类 型 为 address_space_operations 
的 表 ， 表 中 定义 了 对 所 有 者 的 页 进行 处 理 的 各 种 方法 。 这 些 方法 如 表 15-2 所 示 。 


表 15-2; address_space 对 象 的 方法 


方法 说 明 

writepage 写 操作 (从 页 写 到 所 有 者 的 磁盘 映像 ) 

readpage 读 操作 (从 所 有 者 的 磁盘 映像 读 到 页 ) 

sync_page 如 果 对 所 有 者 页 进行 的 操作 已 准备 好 ， 则 立刻 开始 IO 数据 的 传输 
writepages 把 指定 数量 的 所 有 者 脏 页 写 回 磁盘 


set_page dirty 把 所 有 者 的 页 设置 为 脏 页 
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表 15-2， address_space 对 象 的 方法 ( 续 ) 


方法 说 明 

readpages 从 磁盘 中 读 所 有 者 页 的 链表 
prepare_write 为 写 操作 做 准备 (由 磁盘 文件 系统 使 用 ) 
Cormmit_write 完成 写 操作 (由 磁盘 文件 系统 使 用 ) 

bmap 从 文件 块 索引 中 获取 逻辑 块 号 
invalidatepage 使 所 有 者 的 页 无 效 (截断 文件 时 使 用 ) 
releasepage 由 日 志文 件 系统 使 用 以 准备 释放 页 
direct_IO 所 有 者 页 的 直接 IO 传输 ( 绕 过 页 高 速 缓存 ) 








最 重要 的 方法 是 readpage、writepage、prepare_write 和 commit_write。 我 们 将 在 
第 十 六 章 对 它们 进行 讨论 。 在 绝 大 多 数 情况 下 , 这 些 方法 把 所 有 者 的 索引 市 反对 象 和 访 
加 物理 设备 的 低级 驱动 程序 联系 起 来 。 例 如 ， 为 普通 文件 的 索引 节点 实现 readpage 方 
法 的 尔 数 知道 如 何 确定 文件 页 的 对 应 块 在 物理 磁盘 设备 上 的 位 置 。 不 过 , 我 们 不 必 在 本 
童 进一步 讨论 address_space 的 方法 。 


基 树 


Linux 支持 大 到 几 个 TB 的 文件 。 访问 大 文件 时 ， 页 高 速 绥 存 中 可 能 充 注 太 多 的 文件 页 ， 
以 至 于 顺序 扫描 这 些 页 要 消耗 大 量 的 时 间 。 为 了 实现 页 高 速 缓存 的 高 效 查找 , Linux 2.6 
采用 了 大 量 的 搜索 树 ， 其 中 每 个 aGdress_space 对 象 对 应 一 棵 搜索 树 。 


aqqress_space 对 象 的 page_tree 字 段 是 基 树 (radix tree) 的 根 ， 它 包含 指向 所 有 者 
的 页 描述 符 的 指针 。 给 定 的 页 索引 表示 页 在 所 有 者 磁盘 映像 中 的 位 置 , 内 核能 够 通过 快 
速 搜 索 操 作 来 确定 所 需要 的 页 是 否 在 页 高 速 缓存 中 。 当 查找 所 需要 的 页 时 , 内 核 把 页 索 
引 转 换 为 基 树 中 的 路 径 ， 并 快速 找到 页 描述 符 所 (或 应 当 ) 在 的 位 置 。 如 果 找 到 ， 内 核 
可 以 从 基 树 获得 页 描述 符 , 而 且 还 可 以 很 快 确定 所 找到 的 页 是 否 是 脏 页 (也 就 是 应 当 被 
刷新 到 磁盘 的 页 ) ， 以 及 其 数据 的 MO 传送 是 否 正 在 进行 。 


基 树 的 每 个 节点 可 以 有 多 到 64 个 指针 指向 其 他 节点 或 页 描述 符 。 底 层 节点 存放 指 问 页 描 
述 符 的 指针 (叶子 节点 )， 而 上 层 的 节点 存放 指 问 其 他 节点 (孩子 节点 ) 的 指针 。 每 个 
六 点 由 radix_tree_nogde 数据 结构 表示 ， 它 包括 三 个 字段 : slots 是 包括 64 个 指针 的 
数组 ，count 是 记录 节点 中 非 空 指针 数量 的 计数 器 ，tags 是 二 维 的 标志 数组 , 在 本 章 稍 
后 “ 基 树 的 标记 ”一 刷 将 对 其 进行 讨论 。 树 根 由 radix_tree_root 数据 结构 表示 , 它 有 
三 个 字段 : height 表 示 树 的 当前 深度 (不 包括 叶子 节点 的 层 数 )，gfp_mask 指 定 为 新 市 
护 请 求 内 存 时 所 用 的 标志 ,rnode 指 向 与 树 中 第 一 层 节 点 相应 的 数据 结构 radix_tree_ 
node (如 果 有 的 话 )。 


页 向 速 缕 存 00/ 


我 们 来 看 一 个 简单 的 例子 。 如 果树 中 没有 索引 大 于 63, 那么 树 的 深度 就 等 于 1, 因为 可 能 7 
在 的 64 个 叶子 可 以 都 存放 在 第 一 层 的 市 点 中 [如 图 15-1 (a) 所 示 ] 。 不 过 ,如果 与 案 5|131 
相应 的 新 页 的 撕 述 符 肯 定 存 放 和 在 页 高 速 缓 存 中 , 那么 树 的 深度 就 增加 为 2, 这 样 基 树 就 可 以 
查找 多 达 4 095 个 索引 [如 图 15-1 (b) 所 示 ] 。 


radix_tree_root 


rnode 






height=2 ) 


-J 





radix_tree_node 


radix tree root 


rnode 






slots[2] 


radix_tree_node radix_tree_node 


ount=1 
TL 









Er 


index=0 index = 4 index=0 index=4 index= 131 


加 深度 为 的 基 树 中) 深度 为 2 的 基 树 | 








图 15-1: 基 树 的 两 个 例子 


表 15-3 显示 了 页 索引 的 最 大 值 和 基于 32 位 体系 结构 的 基 树 中 与 每 个 给 定 深度 相应 的 文 
件 的 最 大 长 度 。 在 这 里 ， 基 树 的 最 大 深度 是 6， 当 然 系统 中 的 页 高 速 缓存 不 大 可 能 使 用 
那么 大 的 基 树 。 因 为 页 索引 存放 在 32 位 变量 中 , 当 树 的 深度 为 6 时 ， 最 高 层 的 节点 最 多 
可 以 有 4 个 孩子 节点 。 


表 15-3: 每 个 基 树 深度 对 应 的 最 大 索引 值 和 文件 的 最 大 长 度 


基 树 深度 最 大 索引 值 文件 的 最 大 长 度 
0 0 0 

| 2 F038 256 KB 

2 2 a0 LI6 MB 

3 215 -1= 262 143 1 GB 


4 224 -1]= 16 777 215 64 GB 
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表 15-3: 每 个 基 树 深度 对 应 的 最 大 索引 值 和 文件 的 最 大 长 度 〈 续 ) 


基 树 深度 最 大 索引 值 文件 的 最 大 长 度 
5 230.1 = 1 073 741 823 4 TB 
6 232 -1 = 4 294 967 295 16 TB 

















回顾 一 下 分 页 系统 是 如 何 利 用 页 表 实 现 线性 地 址 到 物理 地 址 转换 的 ,从 而 理解 如 何 实 现 
页 查找 。 正 如 第 二 章 “ 常 规 分 页 ”一 节 所 讨论 的 ， 线 性 地 址 最 高 20 位 分 成 两 个 10 位 的 
字段 : 第 一 个 字段 是 页 目录 中 的 偏 移 量 , 而 第 二 个 字段 是 某 个 页 目录 项 所 指向 的 页 表 中 
的 偏 移 量 。 


基 树 中 使 用 类 似 的 方法 。 页 索引 相当 于 线性 地 址 ， 不 过 页 索引 中 要 考虑 的 字段 的 数量 依 
赖 于 基 树 的 深度 。 如 果 基 树 的 深度 为 1, 就 只 能 表示 从 0~ 63 范围 的 索引 ,因此 页 索引 的 
低 6 位 被 解释 为 slots 数组 的 下 标 ， 每 个 下 标 对 应 第 一 层 的 一 个 节点 。 如 果 基 树 的 深度 为 
2,， 就 可 以 表示 从 0~ 4095 范围 的 索引 ， 页 索引 的 低 12 位 分 成 两 个 6 位 的 字段 ， 高 位 的 字 
段 用 于 表示 第 一 层 节 点 数组 的 下 标 ， 而 低位 的 字段 用 于 表示 第 二 层 节点 数组 的 下 标 。 依 
此 类 推 ,如果 深度 等 于 6, 页 索引 的 最 高 两 位 表示 第 一 层 节 点 数组 的 下 标 , 接 下 来 的 6 位 
表示 第 二 层 节 点 数组 的 下 标 ， 这 样 一 直到 最 低 6 位 ， 它 们 表示 第 六 层 市 点 数组 的 下 标 。 


如 果 基 树 的 最 大 索引 小 于 应 该 增加 的 页 的 索引 , 那么 内 核 相应 地 增加 树 的 深度 ， 基 树 的 
中 间 节点 依赖 于 页 索引 的 值 (例子 参见 图 15-1)。 


页 高 速 缓存 的 处 理 函 数 
对 页 高 速 缓存 操 作 的 基本 高 级 函数 有 查找 、 增加 和 删除 页 。 在 以 上 函数 的 基础 上 还 有 另 
一 个 函数 确保 高 速 缓存 包含 指定 页 的 最 新 版 本 。 


查找 页 


半数 fina_get_page() 接 收 的 参数 为 指向 address_space 对 象 的 指针 和 偏 移 量 。 它 获 
取 地 址 空间 的 自 旋 锁 ， 并 调用 radix_tree_lookup() 函 数 搜索 拥有 指定 偏 移 量 的 基 树 
的 叶子 节点 。 该 函数 根据 偏 移 量 值 中 的 位 依次 从 树 根 开始 并 癌 下 搜索 ,如 上 市 所 述 。 如 
果 遇 到 空 指 针 ， 国 数 返 回 NULL， 否则 ， 返回 叶 子 节点 的 地 址 ， 也 就 是 所 需要 的 页 描述 
符 指 针 。 如 果 找 到 了 所 需要 的 页 ，finq_get_page() 函 数 就 增加 该 页 的 使 用 计数 右 ， 释 
放 自 旋 锁 ， 并 返回 该 页 的 地 址 ， 否 则 ， 函 数 就 释放 自 旋 锁 并 返回 NULL。 


函数 find_get_pages () 与 find_get_page() 类 似 , 但 它 实现 在 高 速 缓存 中 查找 一 组 具 
有 相 邻 索引 的 页 。 它 接收 的 参数 是 : 指向 address_space 对 象 的 指针 、 地 址 空间 中 相对 
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于 搜索 起 始 位 置 的 偏 移 量 、 所 检索 到 页 的 最 大 数量 、 指 向 由 该 函数 赋值 的 页 描述 符 数组 
的 指针 。fing_get_pages () 依 赖 radix_tree_gang_lookup() 国 数 实现 查找 操作 ， 
radix_tree_gang_lookup () 国 数 为 指针 数组 赋值 并 返回 找到 的 页 数 。 尽 管 由 于 一 些 页 
可 能 不 在 页 高 速 缓存 中 而 会 出 现 空 缺 的 页 索引 ， 但 所 返回 的 页 还 是 递增 的 索引 值 。 


还 有 另外 几 个 国 数 实现 页 高 速 缓存 上 的 查找 操作 。 例 如 ，finaq_lock_page() 国 数 与 
find_get_page() 类 似 , 但 它 增 加 返回 页 的 使 用 记 数 器 ， 并 调用 1ock_page() 设 置 
PG_locked 标 志 ， 从 而 当 函 数 返 回 时 调用 者 能 够 以 互 斥 的 方式 访问 返回 的 页 。 随后 ,如 果 
页 已 经 被 加 锁 ，lock_page () 国 数 就 阻塞 当前 进程 。 最 后 ,， 它 在 PG_locked 位 置 位 时 调用 
__wait_on_pbit_lock() 国 数 。 后 面 的 图 数 把 当前 进程 置 为 TASK_UNINTERRUPTIBLE 
状态 ， 把 进程 描述 符 存 入 等 待 队 列 ， 执行 address_space 对 象 的 sync_page 方法 以 取消 
文件 所 在 块 设备 的 请 求 队列 ， 最 后 调用 schedule() 函 数 来 挂 起 进程 ， 直 到 把 PG_lockeq 
标志 清 0。 内 核 使 用 unlock_page() 国 数 对 页 进行 解锁 ， 并 唤醒 在 等 待 队列 上 睡眠 的 进 
程 。 


国 数 find_trylock_page() 与 find_lock_page() 类 似 ， 仅 有 一 点 不 同 ， 就 是 
finG_trylock_page () 从 不 阻塞 : 如 果 锌 请 求 的 页 已 经 上 锁 ， 国 数 就 返回 错误 码 。 
最 后 要 说 明 的 是 ， 国 数 finq_or_create_page() 执 行 Eindq_lock_page()， 不 过 ， 
如 果 找 不 到 所 请 求 的 页 ， 就 分 配 一 个 新 页 并 把 它 揪 入 页 高 速 缓存 。 


增加 页 


国 数 adaq_to_page_cache () 把 一 个 新 页 的 摘 述 符 揪 人 到 页 高 速 缓存 。 它 接收 的 参数 有 : 
页 描述 符 的 地 址 page、address_space 对 象 的 地 址 mapping., 表示 在 地 址 空间 内 的 页 索 
引 的 值 of fset 和 为 基 树 分 配 新 节点 时 所 使 用 的 内 存 分 配 标 志 9gfp_mask。 函数 执行 以 下 
操作 : 


1. 调用 radix_tree_preload() 国 数 ， 它 禁用 内 核 抢 占 ， 并 把 一 些 空 的 
radix_tree_node 结构 氧 给 每 CPU 变量 raqix_ tree_preloaaQs 。 
radix_tree_node 结 构 的 分 配 由 slab 分 配器 高 速 缓存 radqix_tree_node_cachep 
来 完成 。 如 果 radix_tree_preload() 预 分 配 radix_tree_node 结构 不 成 功 ， 急 
数 add_to_page_cache() 就 终止 并 返回 错误 码 -ENOMEM。 否 则 ， 如 果 
radqix_tree_preloadq() 成 功 地 完成 预 分 配 ,aqq to_page_cache () 国 数 肯 定 不 会 
因为 缺乏 空闲 内 存 或 因为 文件 的 大 小 达到 了 64GB 而 无 法 完成 新 页 描述 符 的 插入 。 


2. 获取 mapping->tree_lock 自 旋 销 一 注意 ，radQix_tree_preload() 国 数 已 经 禁 
用 了 内 核 抢占 。 


3. 调用 raqix_tree_insert () 在 树 中 插入 新 节点 ， 该 图 数 执行 下 述 操作 : 
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a， 调用 radqix_tree_maxinqex() 获 得 最 大 索引 ， 该 索引 可 能 被 插入 具有 当前 座 
度 的 基 树 :如果 新 页 的 索引 不 能 用 当前 这 度 表示 ， 就 调用 
raqix_tree_extendq() 通 过 增加 适当 数量 的 节点 来 增加 树 的 深度 (例如 , 对 图 
15-1 (a) 所 示 的 基 树 ，radix_tree_extend() 在 它 的 顶端 增加 一 个 节点 )。 分 
配 新 节点 是 通过 执行 radqix_tree_node_alloc() 国 数 实现 的 ， 该 函数 试图 从 
slab 分 配器 高 速 缓存 获得 radix_tree_node 结 构 , 如 果 分 配 失 败 , 就 从 存放 在 
radix_tree_preloads 中 的 预 分 配 的 结构 池 中 获得 radix_tree_node 结 构 。 


b. 根据 页 索引 的 偏 移 量 ， 从 根 市 点 (mapping->page_tree) 开始 遍历 树 ， 直 到 
叶子 节点 ， 如 上 一 节 所 述 。 如 果 需 要 ， 就 调用 radix_tree_node_alloc() 分 
配 新 的 中 间 节 点 。 


c. 把 页 描述 符 地 址 存放 在 对 基 树 所 过 历 的 最 后 节点 的 适当 位 置 ， 并 返回 0。 


4. 增加 页 描述 符 的 使 用 计数 器 page->_count。 

5. 由 于 页 是 新 的 ， 所 以 其 内 容 无 效 : 图 数 设置 页 框 的 PG_locked 标 志 ， 以 阻止 其 他 
的 内 核 路 径 并 发 访问 该 页 。 

6. 用 mapping 和 offset 参数 初始 化 page->mapping 和 page->index。 

7. ”递增 在 地 址 空间 所 缓存 页 的 计数 器 (mapping->nrpages)。 

8. ”释放 地 址 空间 的 自 旋 锁 。 

9. 调用 radix_tree_preload_end() 重 新 启用 内 核 抢 占 。 

10. 返回 0 (成 功 )。 

删除 页 


国 数 remove_from_page_cache() 通 过 下 述 步 又 从 页 高 速 缓存 中 删除 页 描述 符 : 


bs 
2 


获取 自 旋 锁 page->mapping->tree_lock 并 关中 断 。 


调用 radix_tree_qaelete() 国 数 从 树 中 删除 节点 。 该 国 数 接收 树 根 的 地 址 (page 
->mapping->page_tree) 和 要 删除 的 页 索引 作为 参数 ， 并 执行 下 述 步 又 ， 


a. 如 上 节 所 述 ， 根 据 页 索引 从 根 节点 开始 遍历 树 ， 直 到 到 达 叶 子 节 点 。 遍 历时 ， 
建立 radix_tree_path 结 构 的 数组 ,描述 从 根 到 与 要 删除 的 页 相应 的 叶子 节点 
的 路 径 构 成 。 


b.， 从 最 后 一 个 节点 (包含 指向 页 描述 符 的 指针 ) 开始 , 对 路 径 数 组 中 的 节点 开始 
循环 操作 。 对 每 个 节点 ,把 指向 下 一 个 节点 (或 页 描述 符 ) 位 置 数组 的 元 素 置 
为 NULL， 并 递减 count 字段。 如 果 count 变 为 0， 就 从 树 中 删除 市 点 并 把 
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raqix_tree_noqe 结 构 释 放 给 slab 分 配器 高 速 缓存 。 然后 继续 循环 处 理 路 径 数 
组 中 的 节点 。 否 则 ， 如 果 count 不 等 于 0， 继 续 执行 下 一 步 。 


c. 返回 已 经 从 树 中 删除 的 页 描述 符 指 针 。 
3.， 把 page->mapping 字段 置 为 NULL。 
4. ”把 所 缓存 页 的 page->mapping->nrpages 计数 器 的 值 减 1。 
5. 释放 自 旋 锁 page->mapping->tree_lock， 打 开 中 断 ， 国 数 终止 。 


更 新 页 
函数 readq_cache_page () 确保 高 速 缓存 中 包括 最 新 版 本 的 指定 页 。 它 的 参数 是 指向 
adqqress_space 对 象 的 指针 mapping、 表 示 所 请 求 页 的 偏 移 量 的 值 index、 指 向 从 磁盘 
读 页 数据 的 函数 的 指针 filler (通常 是 实现 地 址 空间 reaqpage 方 法 的 图 数 ) 以 及 传递 
给 filler 国 数 的 指针 data (通常 为 NULL), 下 面 是 对 这 个 函数 的 简单 说 明 ， 
1. 调用 图 数 finq_get_page() 检 查 页 是 否 已 经 在 页 高 速 缓存 中 。 
2. ”如 果 页 不 在 页 高 速 缓存 中 ， 则 执行 下 述 子 步 又 : 
a. 调用 alloc_pages1() 分 配 一 个 新 页 框 。 
b. 调用 adqdq_to_page_cache() 在 页 高 速 缓存 中 插入 相应 的 页 描述 符 。 
c.， 调 用 1lru_cache_aqd() 把 页 播 入 该 管理 区 的 非 活 动 LRU 链表 中 [参见 第 十 七 
章 “ 最 近 最 少 使 用 的 链表 (LRU)” 一 市 ]。 
3. 此 时 , 所 请 求 的 页 已 经 在 页 高 速 缓 存 中 了 。 调用 mark_page_accessed() 函 数 记 录 
页 已 经 被 访问 过 的 事实 [参见 第 十 七 章 “ 最 近 最 少 使 用 (LRU) 链表 ”一 节 ]。 
4. ”如 果 页 不 是 最 新 的 (PG_uptodate 标 志 为 0), 就 调用 filler 畏 数 从 磁盘 读 该 页 。 
5. 返回 页 描述 符 的 地 址 。 


基 树 的 标记 
前 面 我 们 曾 强 调 , 页 高 速 缓存 不 仅 允 许 内 核 快 速 获 得 含有 块 设备 中 指定 数据 的 页 , 还 允 
许 内 核 从 高 速 缓存 中 快速 获得 给 定 状 态 的 页 。 


例如 , 我 们 假设 内 核 必 须 从 高 速 缓存 获 得 属于 指定 所 有 者 的 所 有 页 和 脏 页 ( 即 其 内 容 还 
没有 写 回 磁盘 )。 存 放 在 页 描述 符 中 的 PG_dirty 标 志 表 示 页 是 否 是 脏 的 , 但 是 , 如 果 绝 
大 多 数 页 都 不 是 脏 页 , 遍历 整个 基 树 以 顺序 访问 所 有 叶子 节点 (页 描述 符 ) 的 操作 就 太 
慢 了 。 
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相反 ,为 了 能 快速 搜索 脏 页 , 基 树 中 的 每 个 中 间 节 点 都 包含 一 个 针对 每 个 孩子 市 把 (或 
叶子 节点 ) 的 脏 标 记 , 当 有 且 只 有 至 少 有 一 个 孩子 节点 的 脏 标记 被 置 位 时 这 个 标记 被 设 
置 。 最 底层 节点 的 胜 标记 通常 是 页 描述 符 的 PG_dirty 标 志 的 副本 。 通 过 这 种 方式 ， 当 
内 核 遍历 基 树 搜索 脏 页 时 ,就 可 以 跳 过 脏 标 记 为 0 的 中 间 结 点 的 所 有 子 树 : 中 间 结 点 的 
脏 标 记 为 0 说 明 其 子 树 中 的 所 有 页 描述 符 都 不 是 脏 的 。 


同样 的 想法 应 用 到 了 PG_writeback 标 志 ， 该 标志 表示 页 正在 被 写 回 磁盘 。 这 样 ， 为 基 
树 的 每 个 结 点 引入 两 个 页 描述 符 的 标志 : PG_dirty 和 PG_writeback (参见 第 八 章 “页 
描述 符 一 节 ) 。 每 个 结 点 的 tags 字 段 中 有 两 个 64 位 的 数组 来 存放 这 两 个 标志 。tags [0] 
(PAGECRACHE_TRAG_DIRTY) 数组 是 及 标记 ， 而 tags[1] (PAGECACHE_TAG_WRITEBACK) 
数组 是 写 回 标记 。 


设置 页 高 速 缓存 中 页 的 PG_qirty 或 PEG_writeback 标 志 时 调用 图 数 *adqix _ tree_tag_- 
set () ， 它 作用 于 三 个 参数 : 基 树 的 根 、 页 的 索引 以 及 要 设置 的 标记 的 类 型 
(PAGECACHE_TAG_DIRTY 或 PAGECACHE_TAG_WRITEBACK) ,函数 从 树 根 开始 并 向 下 搜 
索 到 与 指定 索引 对 应 的 叶子 结 点 ; 对 于 从 根 通 往 叶 子路 径 上 的 每 一 个 节点 , 函数 利用 指 
问 路 径 中 下 一 个 结 点 的 指针 设置 标记 。 然后， 函数 返回 页 描述 符 的 地 址 。 结 果 是 ， 从 根 
结 点 到 叶子 结 点 的 路 径 中 的 所 有 结 点 都 以 适当 的 方式 被 加 上 了 标记 。 


清除 页 商 速 缓存 中 页 的 PG_qirty 或 PG_writeback 标 志 时 调用 国 数 radix_tree-_ 
tag_clear()， 它 的 参数 与 困 数 radqix_tree_tag_set() 的 参数 相同 。 国 数 从 树 根 开 始 
并 向 下 到 叶子 结 点 , 建立 描述 路 径 的 radqix_tree_path 结 构 的 数组 。 然 后 ， 国 数 从 叶子 
结 点 到 根 结 点 向 后 进行 操作 : 清除 底层 结 点 的 标记 , 然后 检查 是 否 结 点 数组 中 所 有 标记 
都 被 清 0， 如果 是 ， 函数 把 上 野 父 结 点 的 相应 标记 清 0， 并 如 此 继续 上 述 操作 。 最 后 ， 沙 
数 返 回 页 描述 符 的 地 址 。 


从 基 树 删除 页 描述 符 时 , 必须 更 新 从 根 结 点 到 叶子 结 点 的 路 径 中 结 点 的 相应 标记 。 图 数 
radix_tree_delete() 可 以 正确 地 完成 这 个 工作 (尽管 我 们 在 上 一 节 没 有 提 到 这 一 点 )。 
而 冰 数 radix_tree_insert () 不 更 新 标记 ,因为 插入 基 树 的 所 有 页 描述 符 的 PG_dirty 
和 PG_writeback 标志 都 被 认为 是 清 零 的 。 如 果 需 要 ， 内 核 可 以 随后 调用 函数 


radix_tree tag_set () 。 


半数 radix_tree_tagged() 利 用 树 的 所 有 结 点 的 标志 数组 来 测试 基 树 是 否 至 少 包 括 一 
个 指定 状态 的 页 。 函 数 通 过 执行 下 面 的 代码 轻松 地 完成 这 一 任务 (root 是 指 回 基 树 的 
radix_tree_root 结构 的 指针 ，tag 是 要 测试 的 标记 ): 


for (idx = 0; idx < 2; idx++) { 
if (root->rnode->tags [tag] [idx])} 
return 1; 
} 


return 0; 
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因为 可 能 假设 基 树 所 有 结 点 的 标记 都 正确 地 更 新 过 ， 所 以 radix_tree_tagged() 函 数 
只 需要 检查 第 一 层 的 标记 。 使 用 该 函数 的 一 个 例子 是 : 确定 一 个 包含 脏 页 的 索引 节点 是 
否 要 写 回 磁盘 。 注意 , 函数 在 每 次 循环 时 要 测试 在 无 符号 长 整 型 的 32 个 标志 中 , 是 否 有 
被 设置 的 标志 。 


国 数 find_get_pages_tag() 和 find_get_pages() 类 似 ， 只 有 一 点 不 同 ， 就 是 前 者 返 
回 的 只 是 那些 用 tag 参数 标记 的 页 。 正 如 我 们 将 在 “把 脏 页 写 入 磁盘 ”一 节 所 见 的 ,该 
国 数 对 快速 找到 一 个 索引 节点 的 所 有 了 脏 页 是 非常 关键 的 。 


把 块 存放 在 页 高 速 缓存 中 


我 们 在 第 十 四 章 “ 块 设备 的 处 理 ” 一 市 已 经 看 到 ，VFS (映射 层 ) 和 各 种 文件 系统 以 叫 
做 “ 块 ” 的 逻辑 单位 组 织 磁盘 数据 。 


在 Linux 内 核 的 旧版 本 中 , 主要 有 两 种 不 同 的 磁盘 高 速 缓存 : 页 高 速 缓 存 和 缓冲 区 高 速 
缓存 ,， 前 者 用 来 存放 访问 磁盘 文件 内 容 时 生成 的 磁盘 数据 页 ， 后 者 把 通过 VFS (管理 磁 
盘 文 件 系统 ) 访问 的 块 的 内 容 保留 在 内 存 中 。 


从 2.4.10 的 稳定 版 本 开始 , 缓冲 区 高 速 缓存 其 实 就 不 存在 了 。 事实 上 , 由 于 效率 的 原因 ， 
不 再 单独 分 配 块 缓冲 区 ， 相反， 把 它们 存放 在 叫做 “缓冲 区 页 ”的 专门 页 中 ,而 缓冲 区 
页 保存 在 页 高 速 缓 存 中 。 


缓冲 区 页 在 形式 上 就 是 与 称 做 “缓冲 区 首部 ”的 附加 撕 述 符 相 关 的 数据 页 ， 其 主要 目 
的 是 快速 确定 页 中 的 一 个 块 在 磁盘 中 的 地 址 。 实际 上 , 页 高 速 缓存 内 的 页 中 的 一 大 块 数 
据 在 磁盘 上 的 地 址 不 一 定 是 相 邻 的 。 


块 缓冲 区 和 缓冲 区 首部 


每 个 块 缓冲 区 都 有 buffer_head 类 型 的 缓冲 区 首部 描述 符 。 该 描述 符 包含 内 核 必须 了 解 
的 、 有 关 如 何 处 理 块 的 所 有 信息 。 因 此 ， 在 对 所 有 块 操作 之 前 ， 内 核 检查 缓冲 区 首部 。 
缓冲 区 首部 的 字段 在 表 15-4 中 列 出 。 


表 15-4: 缓冲 区 首部 的 字段 


类 型 字段 说 明 
unsigned long b state 缓 钟 区 状态 标志 
struct buffer head * b_ this_page 指 同 缓冲 区 页 的 链表 中 的 下 一 个 元 素 


的 指针 
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表 15-4: 缓冲 区 首部 的 字段 ( 续 ) 


类 型 字段 说 明 

struct page * b_page 指向 拥有 该 块 的 缓冲 区 页 的 描述 符 的 
指针 

atomic t b_count. 块 使 用 计数 器 

U32 DB Size 块 大 小 

sector_t b_blocknr 与 块 设备 相关 的 块 号 《还 辑 块 号 ) 

char * b_data 块 在 缓冲 区 页 内 的 位 置 

struct block device * b_bdev 指向 块 设备 描述 符 的 指针 

bh_enaq_ io 上 * b_end_io [/O 完成 方法 

VOid * b_private 指向 IO 完成 方法 数据 的 指针 

SEEGE JieSE heaa b_assoc_buffers 为 与 某 个 索引 节点 相关 的 间接 块 的 链 


表 提 供 的 指针 (参见 本 章 前 面 
“address_space 对 象 ” 一 节 ) 





缓冲 区 首部 的 两 个 字段 编码 表示 块 的 磁盘 地 址 : b_bqaev 字 段 表示 包含 块 的 块 设备 (参见 
第 十 四 章 “ 块 设备 ”一 节 ”), 通常 是 磁盘 或 分 区 ; 而 b_blocknr 字 段 存 放 逻 辑 块 号 ， 即 
块 在 磁盘 或 分 区 中 的 编号 。 


b_data 字 段 表 示 块 缓冲 区 在 缓冲 区 页 中 的 位 置 。 实 际 上 , 这 个 位 置 的 编号 依赖 于 页 是 否 
在 高 端 内 存 。 如 果 页 在 高 端 内 存 ， 则 b_dqata 字 段 存 放 的 是 块 缓冲 区 相对 于 页 的 起 始 位 
置 的 偏 移 量 ， 否 则 ，lb_data 存放 的 是 块 缓冲 区 的 线性 地 址 。 


b_state 了 字段 可 以 存放 几 个 标志 。 其 中 一 些 标志 是 通用 的 ,把 它们 列 在 表 1S$-5$ 中 。 每 个 
文件 系统 还 可 以 定义 自己 的 私有 缓冲 区 首部 标志 。 


表 15-5; 缓冲 区 首部 的 通用 标志 


标志 说 明 

BH_Uptodate 缓冲 区 包含 有 效 数据 时 被 置 位 

BH Di ty 如 果 缓 冲 区 脏 就 置 位 (表示 缓冲 区 中 的 数据 必须 写 回 块 设备 ) 
BH_Lock 如 果 缓 冲 区 加 锁 就 置 位 ， 通 常 发 生 在 缓冲 区 进行 磁盘 传输 时 
BH_Req 如 果 已 经 为 初始 化 缓冲 区 而 请 求 数据 传输 就 置 位 

BH_Mapped 如 果 缓 冲 区 被 映射 到 磁盘 就 置 位 ， 即 : 如 果 相 应 的 缓冲 区 首部 的 b_ 


bdev 和 b_blocknr 是 有效 的 就 置 位 
BH_New 如 果 相 应 的 块 刚 被 分 配 而 还 没有 被 访问 过 就 置 位 
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表 15-5: 缓冲 区 首部 的 通用 标志 ( 续 ) 

标志 说 明 

BH_Async_Read 如 果 在 异步 地 读 缓 冲 区 就 置 位 
BH_Async_Write ”如 果 在 异步 地 写 缓 冲 区 就 置 位 


BH_Delay 如 果 还 没有 在 磁盘 上 分 配 缓 溃 区 就 置 位 

BH_Boundary 如 果 两 个 相 邻 的 块 在 其 中 一 个 提交 之 后 不 再 相 邻 就 置 位 

We 区 IO 如 果 写 块 时 出 现 MO 错误 就 置 位 

BH_Ordered 如 果 必 须 严格 地 把 块 写 到 在 它 之 前 提交 的 块 的 后 面 就 置 位 (用 于 日 
志文 件 系 统 ) 


BH_Eopnot supp 如 果 块 设备 的 驱动 程序 不 支持 所 请 求 的 操作 就 置 位 





管理 缓冲 区 首部 


缓冲 区 首部 有 它们 自己 的 slab 分 配器 商 速 缓存 ， 其 摘 述 符 kmem_cache_s 存在 变量 
bph_cachep 中 。alloc _buffer_headq() 和 free_buffer_headaf) 国 数 分 别 用 于 获取 和 释 
放 缓 冲 区 首部 。 


缓冲 区 首部 的 pb_count 字 段 是 相应 的 块 缓冲 区 的 引用 计数 右 。 在 每 次 对 块 缓 种 区 进行 操 
作 之 前 递增 计数 器 并 在 操作 之 后 递减 它 。 除 了 周期 性 地 检查 保存 在 页 高 速 缓存 中 的 块 组 
种 区 之 外 ,， 当 至 闲 内 存 变 得 很 少时 也 要 对 它 进行 检查 ， 只 有 引用 计数 器 等 于 0 的 块 缓冲 
区 才 可 以 被 回收 (参见 第 十 七 章 )。 


当 内 核 控 制 路 径 希 望 访问 块 缓 促 区 时 , 应 该 先 递增 引用 计数 器 。 确 定 块 在 页 高 速 缓 存 中 
的 位 置 的 函数 (__getblk()， 参 见 本 章 稍 后 “在 页 高 速 缓存 中 搜索 块 ”一 节 ) 自动 完 
成 这 项 工作 ， 因 此 ， 高 层 尔 数 通 常 不 增加 块 缓 冲 区 的 引用 计数 器 。 


当 内 核 控制 路 径 停 止 访 问 块 缓 促 区 时 , 应 该 调用 __brelse() 或 __bforget () 递 减 相 应 
的 引用 计数 器 。 这 两 个 函数 之 间 的 不 同 是 __bforget () 还 从 间接 块 链表 (缓冲 区 首部 
的 b_assoc_buffers 字 段 , 参见 前 面 的 “ 块 缓冲 区 和 组 促 区 首部 ”一 节 ) 中 删除 块 ， 并 
把 该 缓冲 区 标记 为 干净 的 , 因此 强制 内 核 忽略 对 缓 促 区 所 做 的 任何 修改 , 但 实际 上 缓冲 
区 依然 必须 被 写 回 磁盘 。 


缓冲 区 页 


只 要 内 核 必须 单独 地 访问 一 个 块 , 就 要 涉及 存放 块 缓 促 区 的 缓冲 区 页 , 并 检查 相应 的 组 
仲 区 首部 。 
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下 面 是 内 核 创 建 缓冲 区 页 的 两 种 普通 情况 :; 


。 ，“ 当 读 或 写 的 文件 页 在 磁盘 块 中 不 相 邻 时 。 发 生 这 种 情况 是 因为 文件 系统 为 文件 分 配 
了 非 连 续 的 块 ， 或 因为 文件 有 “ 洞 ”( 参 见 第 十 八 章 “文件 的 洞 ”一 市 )。 


。 ” 当 访 问 一 个 单独 的 磁盘 块 时 (例如 ， 当 读 超级 块 或 索引 节 反 块 时 )。 


在 第 一 种 情况 下 , 把 缓冲 区 页 的 描述 符 插入 普通 文件 的 基 树 ， 保存 好 缓冲 区 首部 ， 因 为 
其 中 存 有 重要 的 信息 , 即 存 有 数据 在 磁盘 中 位 置 的 块 设 备 和 逻辑 块 号 。 在 第 十 六 章 我 们 
将 了 解 内 核 如 何 利用 这 种 类 型 的 缓冲 区 页 。 


在 第 二 种 情况 下 , 把 缓 钟 区 页 的 描述 符 插 人 基 树 , 树 根 是 与 块 设 备 相关 的 特殊 bdev 文 件 
系统 中 索引 节点 的 address_space 对象 (参见 本 章 前 面 “address_space 对 象 ” 一 节 )。 
这 种 缓冲 区 页 必须 满足 很 强 的 约束 条 件 ,就 是 所 有 的 块 缓冲 区 涉及 的 块 必须 是 在 块 设备 
上 相 邻 存放 的 。 


这 种 情况 的 一 个 应 用 实例 是 : 如 果 虚 拟 文件 系统 要 读 大 小 为 1024 个 字 节 的 索引 届 点 块 
(包含 给 定 文件 的 索引 刷 点 )。 内 核 并 不 是 只 分 配 一 个 单独 的 缓冲 区 , 而 是 必须 分 配 一 个 
整 页 ， 从 而 存放 四 个 缓冲 区 ,这些 缓冲 区 将 存放 块 设备 上 相 邻 的 4 块 数据 ， 其 中 包括 所 
请 求 的 索引 节点 块 。 


本 章 我 们 将 重点 讨论 第 二 种 类 型 的 缓冲 区 页 , 即 所 谓 的 块 设备 缓冲 区 页 (有 时 简称 为 块 
设备 页 ) 。 


在 一 个 缓冲 区 页 内 的 所 有 块 缓冲 区 大 小 必须 相同 ， 因 此 , 在 80x86 体 系 结构 上 ,根据 块 
的 大 小 ， 一 个 缓冲 区 页 可 以 包括 1~8 个 缓冲 区 。 


如 果 一 个 页 作为 缓冲 区 页 使 用 ,那么 与 它 的 块 缓冲 区 相关 的 所 有 缓冲 区 首部 都 被 收集 在 
一 个 单 同 循环 链表 中 。 缓冲 区 页 描述 符 的 private 字 段 指 向 页 中 第 一 个 块 的 缓冲 区 首部 
( 注 3) 每 个 缓冲 区 首部 存放 在 b_this_page 字 段 中 , 该 字段 是 指向 链表 中 下 一 个 缓冲 
区 首部 的 指针 。 此 外 ， 每 个 缓冲 区 首部 还 把 缓 促 区 页 描述 符 的 地 址 存放 在 lb_page 字段 
中 。 图 15-2 显示 了 一 个 缓冲 区 页 ， 共 中 包含 四 个 块 缓冲 区 和 对 应 的 缓冲 区 首部 。 


注 3: 由 于 private 字段 包含 有 效 数据 ， 而 且 页 的 PG ”private 标 志 被 设置 ， 因 此 ， 如 果 页 中 
包含 磁盘 数据 并 且 设 置 了 PG Private 标志 ， 该 页 就 是 一 个 缓冲 区 页 。 注 意 ， 尽 管 如 此 ， 
其 他 与 块 MO 子 系统 无 关 的 内 核 组件 也 因为 别 的 用 途 而 使 用 Private 和 EPEG_ Private 字 段 。 
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图 15-2: 一 个 缓冲 区 页 ， 其 中 包含 四 个 块 缓冲 区 和 对 应 的 缓冲 区 首部 


分 配 块 设备 缓冲 区 页 


当 内 核发 现 指 定 块 的 缓冲 区 所 在 的 页 不 在 页 高 速 缓存 中 时 ,就 分 配 一 个 新 的 块 设 备 缓冲 
区 页 (参见 本 章 稍 后 “在 页 高 速 绥 存 中 搜索 块 ”一 市 )。 特 别 是 ， 对 块 的 查找 操作 会 由 
于 下 述 原因 而 失败 : 


1. 包含 数据 块 的 页 不 在 块 设 备 的 基 树 中 : 这 种 情况 下 , 必须 把 新 页 的 描述 符 加 到 基 树 
中 。 


2. 包含 数据 块 的 页 在 块 设备 的 基 树 中 , 但 这 个 页 不 是 缓冲 区 页 : 在 这 种 情况 下 , 必须 
分 配 新 的 缓冲 区 首部 ， 并 将 它 链接 到 所 属 的 页 ， 从 而 把 它 变 成 块 设备 缓冲 区 页 。 


3. ”包含 数据 块 的 缓冲 区 页 在 块 设备 的 基 树 中 ,但 页 中 块 的 大 小 与 所 请 求 的 块 大 小 不 
相同 : 这 种 情况 下 , 必须 释放 旧 的 缓冲 区 首部 , 分 配 经 过 重新 赋值 的 缓冲 区 首部 并 
将 它 链接 到 所 属 的 页 。 


内 核 调用 藻 数 grow_buffers() 把 块 设备 缓冲 区 页 添加 到 页 高 速 缓 存 中 , 该 函数 接收 三 
个 标识 块 的 参数 : 


. block_device 掺 述 符 的 地 址 bdev。 


。 ”逻辑 块 号 block( 块 在 块 设备 中 的 位 置 )。 
. 块 大 小 size。 


该 函数 本 质 上 执行 下 列 操作 
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1. 计算 数据 页 在 所 请 求 块 的 块 设备 中 的 偏 移 量 index。 


2. 如果 需 要 ， 就 调用 grow_dev_page () 创建 新 的 块 设备 缓冲 区 页 。 该 函数 依次 执行 
下 列子 步骤 : 


3. 


h. 


调用 痛 数 find_or_create_page()， 传递 给 它 的 参数 有 : 块 设备 的 
address_space 对 每 (bdev->bd_inode->i_mapping)、 页 偏 移 index 以 及 
GFP_NOFS 标志 。 正 如 在 前 面 “ 页 商 速 缓存 的 处 理 函 数 ” 一 市 所 描述 的 ， 
finaq_or_create_page() 在 页 高 速 缓 存 中 搜索 需要 的 页 , 如 果 需 要 , 就 把 新 页 
插入 高 速 缓存 。 


此 时 ,所 请 求 的 页 已 经 在 页 高 速 缓存 中 , 而且 函数 获得 了 它 的 描述 符 地 址 。 函 


数 检查 它 的 PG_private 标 志 ; 如 果 为 空 ， 说 明 页 还 不 是 一 个 缓冲 区 页 (没有 
相关 的 缓冲 区 首部 )， 就 跳 到 第 2e 步 。 


页 已 经 是 缓冲 区 页 。 人 队 页 描述 符 的 private 字 段 获 得 第 一 个 缓冲 区 首部 的 地 址 
bh， 并 检查 块 大 小 bn->size 是 否 等 于 所 请 求 的 块 大 小 ， 如 果 大 小 相等 ,在 页 
高 速 缓存 中 找到 的 页 就 是 有 效 的 缓冲 区 页 ， 因 此 跳 到 第 28 步 。 


如 果 页 中 块 的 大 小 有 错误 ,就 调用 try_to_free_buffers() (参见 下 一 节 ) 释 
放 缓 冲 区 页 的 上 一 个 缓冲 区 首部 。 


调用 函数 alloc_page_buffers() 根 据 页 中 所 请 求 的 块 大 小 分 配 缓 冲 区 首部 ， 
并 把 它们 插入 由 P_this_page 字 段 实现 的 单 向 循环 链表 。 此 外 , 团 数 用 页 描述 
符 的 地 址 初始 化 缓冲 区 首部 的 b_page 字段， 用 块 缓冲 区 在 页 内 的 线性 地 址 或 
偏 移 量 初 始 化 b_data 字段 。 


在 字段 private 中 存放 第 一 个 缓冲 区 首部 的 地 址 ， 把 PG_private 字段 置 位 ， 
并 递增 页 的 使 用 计数 器 (页 中 的 块 缓冲 区 被 算 作 一 个 页 用 户 )，。 

调用 init_page_buffers() 雏 数 初始 化 连接 到 页 的 缓冲 区 首部 的 字段 p_bdev、 
b_blocknr 和 kb_bstate。 因为 所 有 的 块 在 磁盘 上 都 是 相 邻 的 , 因此 逻辑 块 号 是 
连续 的 ， 而 且 很 容易 从 块 得 出 。 

返回 页 描述 符 地 址 。 


3. ”为 页 解锁 (函数 find_or_create_page() 曾 为 页 加 了 锁 )。 
4. 递减 页 的 使 用 计数 器 (函数 find_or_create_page() 曾 递增 了 计数 器 )。 
5. 返回 1 (成 功 )。 


释放 块 设备 缓冲 区 页 
就 像 我 们 在 第 十 七 章 将 要 了 解 的 那样 ， 当 内 核 试图 获得 更 多 的 空 闪 内 存 时 ,就 释放 块 设 
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备 缓冲 区 页 。 显 然 ， 不 可 能 释放 有 脏 缓 冲 区 或 上 锁 的 缓冲 区 的 页 。 内 核 调 用 范 数 

try_to_release_page() 释 放 缓 冲 区 页 ， 该 函数 接收 页 描述 符 的 地 址 page， 并 执行 下 

述 步 申 ( 注 4): 

1. 如 果 设 置 了 页 的 PG_writeback 标 志 ， 则 返回 0 (因为 正在 把 页 写 回 磁盘 ， 所 以 不 
可 能 释放 该 页 ) 。 


2. 如果 已 经 定义 了 块 设备 address_space 对 象 的 releasepage 方 法 ,就 调用 它 ( 通 
常 没 有 为 块 设备 定义 的 releasepage 方法 )。 


3. 调用 轴 数 try_to_free buffers() 并 返回 它 的 错误 代码 。 


国 数 try_to_free_buffers() 依 次 扫描 链接 到 缓冲 区 页 的 缓 促 区 首部 ， 它 本 质 上 执行 
下 列 操作 


]. 检查 页 中 所 有 缓冲 区 的 缓冲 区 首部 的 标志 。 如 果 有 些 缓冲 区 首部 的 BH_Dirty 或 
BH_Locked 标 志 被 置 位 , 说 明 函 数 不 可 能 释放 这 些 缓 串 区 ， 所 以 函数 终止 并 返回 0 
(失败 )。 


2. 如果 缓冲 区 首部 在 间接 缓冲 区 的 链表 中 (参见 本 章 前 面 “ 块 缓冲 区 和 缓冲 区 首部 ” 
一 节 )， 该 函数 就 从 链表 中 删除 它 。 


3. ”清除 页 描述 符 的 PG_private 标 记 , 把 Private 字段 设置 为 NULD， 并 递减 页 的 使 
用 计数 器 。 


4. ”清除 页 的 PG_dirty 标记 。 
5. 反复 调用 free_buffer_head(), 以 释放 页 的 所 有 绿 溃 区 首部 。 
6. 返回 1 (成 功 )。 


在 页 高 速 缓存 中 搜索 块 

当 内 核 需要 读 或 写 一 个 单独 的 物理 设备 块 时 (例如 一 个 超级 块 )， 必 须 检查 所 请 求 的 块 
缓 促 区 是 否 已 经 在 页 高 速 绥 存 中 , 在 页 高 速 缓存 中 搜索 指定 的 块 缓冲 区 (由 块 设 备 描 述 
符 的 地 址 baev 和 逻辑 块 号 nr 表示 ) 的 过 程 分 成 三 个 步骤 ; 


1. 获取 一 个 指针 ， 让 它 指向 包含 指定 块 的 块 设 备 的 aaaqress_space 对 象 (bdev-> 


bq_inodqe->i_mappingy) 。 


注 4: 还 可 以 对 兽 通 文件 所 拥有 的 冯 冲 区 页 调用 try-to-release-page() 前 数 。 
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2. 获得 设备 的 块 大 小 (bdev->bq_block_size)， 并 计算 包含 指定 块 的 页 索引 。 这 和 需 
要 在 逻辑 块 号 上 进行 位 移 操 作 。 例 如 ， 如 果 块 的 大 小 是 1024 字 节 ， 每 个 缓冲 区 页 
包含 四 个 块 绿 冲 区 ， 那 么 页 的 索引 是 nr/4。 


3. ”在 块 设备 的 基 树 中 搜索 缓冲 区 页 。 获 得 页 描述 符 之 后 , 内 核 访问 缓冲 区 首部 , 它 描 
述 了 页 中 块 缓冲 区 的 状态 。 


不 过 ， 实 现 的 细节 要 更 为 复杂 。 为 了 提高 系统 性 能 ,内 核 维持 一 个 小 磁盘 高 速 缓存 数组 
bh_lrus (每 个 CPU 对 应 一 个 数组 元 素 )， 即 所 谓 的 最 近 最 少 使 用 (LRU) 块 高 速 缓存 。 
每 个 磁盘 高 速 缓存 有 8 个 指针 , 指向 被 指定 CPU 最 近 访 问 过 的 缓冲 区 首部 。 对 每 个 CPU 
数组 的 元 素 排序 ， 使 指向 最 后 被 使 用 过 的 那个 缓 钟 区 首部 的 指针 索引 为 0。 相 同 的 缓冲 
区 首部 可 能 出 现在 几 个 CPU 数组 中 (但 是 同一 个 CPU 数组 中 不 会 有 相同 的 缓冲 区 首 
部 ) ,在 LRU 块 高 速 缓存 中 每 出 现 一 次 缓冲 区 首部 ,该 缓冲 区 首部 的 使 用 计数 器 b_count 
就 加 1。 


”find_get_block() 函 数 


疯 数 __find_get_block () 的 参数 有 : block_device 摘 述 符 地 址 baev、 块 号 block 和 
块 大 小 size。 范 数 返回 页 高 速 缓存 中 的 块 缓冲 区 对 应 的 缓冲 区 首部 的 地 址 ;如果 不 存在 
指定 的 块 ， 就 返回 NULL。 该 函数 本 质 上 执行 下 面 的 操作 |， 


1. 检查 执行 CPU 的 LRU 块 高 速 缓存 数组 中 是 否 有 一 个 缓冲 区 首部 ， 其 b_bdev、 
b_blocknr 和 Pb_size 字 段 分 别 等 于 pdaev、blcck 和 size。 


2. ”如果 缓冲 区 首部 在 LRU 块 高 速 绥 存 中 ,就 刷新 数组 中 的 元 素 ， 以 便 让 指针 指 在 第 
一 个 位 置 (索引 为 0) 刚 找 到 的 缓冲 区 首部 ， 递 增 它 的 b_count 字段 ， 并 跳 转 到 
第 8 步 。 


3. 如果 缓 冲 区 首部 不 在 LRU 块 高 速 缓存 中 ,根据 块 号 和 块 大 小 得 到 与 块 设备 相关 的 
页 的 索引 : 


index = block >> (PAGE _SHIFT - bdev->bd_inode->i_ blkbits) 


4. 调用 find_get_page() 确 定 存 有 所 请 求 的 块 缓冲 区 的 缓冲 区 页 的 描述 符 在 页 高 速 
缓存 中 的 位 置 。 该 辫 数 传递 的 参数 有 : 指向 块 设 备 的 address_space 对象 的 指针 
(bdev->pd_inode->i_mapping) 和 页 索引 。 页 索引 用 于 确定 存 有 所 请 求 的 块 缓冲 
区 的 缓冲 区 页 的 描述 符 在 页 高 速 缓存 中 的 位 置 。 如 果 高 速 缓存 中 没有 这 样 的 页 ,就 
返回 NULL (失败 ) 。 


5， 此 时 , 函数 已 经 得 到 了 缓冲 区 页 描述 符 的 地 址 : 它 扫 拉链 接 到 缓冲 区 页 的 缓冲 区 首 
部 链表 ， 查 找 逻 辑 块 号 等 于 block 的 块 。 
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6. 递减 页 描述 符 的 count 字段 (fingd_get_page() 曾 递增 它 的 值 )。 

7. 把 LRU 块 高 速 缓存 中 的 所 有 元 素 向 下 移动 一 个 位 置 ， 并 把 指向 所 请 求 块 的 缓冲 区 
首部 的 指针 插入 到 第 一 个 位 置 。 如 果 一 个 缓冲 区 首部 已 经 不 在 LRU 块 高 速 缓存 中 ， 
就 递减 它 的 引用 计数 新 b_count。 

8. 如 果 需 要 , 就 调用 mark_page_accessed () 把 缓冲 区 页 移 至 适当 的 LRU 链 表 中 [ 参 
见 第 十 七 章 “ 最 近 最 少 使 用 (LRU) 链表 ”一 节 ]。 

9. 返回 缓冲 区 首部 指针 。 


__getblk() 函 数 


图 数 __getblk () 与 __findq_get_block() 接 收 相 同 的 参数 ， 也 就 是 block_device 描 
述 符 的 地 址 baev、 块 号 block 和 块 大 小 size,， 并 返回 与 缓冲 区 对 应 的 绿 冲 区 首部 的 地 
址 。 即 使 块根 本 不 存在 ， 该 国 数 也 不 会 失败 ，__getblk () 友 好 地 分 配 块 设备 缓冲 区 页 
并 返回 将 要 摘 述 块 的 组 种 区 首部 的 指针 。 注 意 ，__getblk() 返 回 的 块 缓冲 区 不 必 存 有 
有 效 数据 一 一 缓冲 区 首部 的 BH_Uptodate 标 志 可 能 被 清 0。 


国 数 __getblk() 本 质 上 执行 下 面 的 步骤 : 

1. 调用 __finqd_get_block() 检 查 块 是 否 已 经 在 页 高 速 缓存 中 。 如果 找 到 块 , 则 函数 
返回 其 缓冲 区 首部 的 地 址 。 

2. 否则 , 调用 grow_buffers() 为 所 请 求 的 页 分 配 一 个 新 的 缓冲 区 页 (参见 本 章 前 面 
“分 配 块 设 备 缓冲 区 页 ”一 节 )。 


3. 如 果 grow_buffers() 分 配 这 样 的 页 时 失败 ，_ getblk() 试 图 通过 调用 国 数 
free_more_memory () 回 收 一 部 分 内 存 (参见 第 十 七 章 ) 。 


4. 跳 转 到 第 1 步 。 


__bread() 函 数 


图 数 __bread() 接 收 与 __getblk() 相 同 的 参数 , 即 block_qevice 描 述 符 的 地 址 pqev、 
块 号 block 和 块 大 小 size, 并 返回 与 缓冲 区 对 应 的 缓冲 区 首部 的 地 址 。 与 __getblk() 
相反 的 是 ， 如 果 需 要 的 话 ， 在 返回 缓冲 区 首部 之 前 函数 __bread() 从 磁盘 读 块 。 函 数 
__bread () 执 行 下 述 步 又 : 


1. 调用 __getblk() 在 页 高 速 缓存 中 查找 与 所 请 求 的 块 相关 的 缓冲 区 页 , 并 获得 指 固 
相应 的 缓冲 区 首部 的 指针 。 


2. ”如果 块 已 经 在 页 高 速 缓存 中 并 包含 有 效 数 据 (BH_Uptodate 标 志 被 置 位 )， 就 返回 
缓冲 区 首部 的 地 址 。 
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3. 否则， 递增 绥 冲 区 首部 的 引用 计数 器 。 
4. ”把 end_buffer_read_sync() 和 的 地 址 赋 给 b_eng_ io 字段 (参见 下 一 节 ) 。 
5. 调用 submit_bn() 把 缓冲 区 首部 传送 到 通用 块 层 (参见 下 一 节 )。 


6. 调用 wait_on_buffer() 把 当前 进程 插入 等 待 队 列 ， 直 到 WO 操作 完成 ， 即 直到 组 
冲 区 首部 的 BH_Lock 标志 被 请 0。 


7. 返回 缓冲 区 首部 的 地 址 。 


回 通用 块 层 提 交 缓 冲 区 首部 
一 对 submit_bh() 和 11_rw_block() 国 数 ， 人 允许 内 核对 缓冲 区 首部 摘 述 的 一 个 或 多 个 
缓冲 区 进行 IO 数据 传送 。 


submit_bh() 函 数 


内 核 利 用 submit_ph() 国 数 向 通用 块 层 传递 一 个 缓冲 区 首部 ,并 由 此 请 求 传输 一 个 数据 
块 。 它 的 参数 是 数据 传输 的 方向 (本 质 上 就 是 READ 或 WRITE) 和 指向 描述 块 缓冲 区 的 
绥 冲 区 首部 的 指针 bh。 


submit_ph() 函数 假设 缓冲 区 首部 已 经 被 彻底 初始 化 ， 尤其 是 ， 必 须 正 确 地 为 b_bdqev、 
b_blocknr 和 Pb_size 字 段 赋值 以 标识 包含 所 请 求 数据 的 磁盘 上 的 块 。 如 果 块 缓冲 区 在 
块 设备 缓冲 区 页 中 , 就 由 __fingd_get_block() 完 成 对 绥 冲 区 首部 的 初始 化 , 就 像 在 上 
一 市 所 反 述 的 。 不 过 , 我 们 将 在 下 一 章 看 到 , 还 可 以 对 普通 文件 所 有 的 缓冲 区 页 中 的 块 
调用 submit_bh () 。 


submit_bh{) 函 数 只 是 一 个 起 连接 作用 的 函数 ， 它 根据 组 促 区 首部 的 内 容 创 建 一 个 bio 
请 求 ， 并 随后 调用 generic_make_request ()( 参 见 第 十 四 章 “ 提 交 请 求 ” 一 节 ) 。 图 数 
执行 的 主要 步骤 如 下 : 


1， 设置 缓冲 区 首部 的 BH_Req 标 志 以 表示 块 至 少 被 访问 过 一 次 。 此外, 如 果 数 据 传输 
的 方向 是 WRITE， 就 将 BH_Write_EIO 标志 请 0。 

2. ”调用 bio_alloc() 分 配 一 个 新 的 bio 描述 符 (参见 第 十 四 章 “bio 结构 ”一 节 )。 

3. ”根据 缓冲 区 首部 的 内 容 初 始 化 bio 描述 符 的 字段 : 


a. 把 块 中 的 第 一 个 扇 区 的 号 (bh->b blocknrxbh->b_size/512) 赋 给 bi_sector 
字段 


b. 把 块 设备 描述 符 的 地 址 (bh->b_bdev) 赋 给 bi_bqev 字段 。 
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c,， 把 块 大 小 (bh->b_size) 峰 给 bi_size 字 上段。 


d. 初始 化 bi_io_vec 数 组 的 第 一 个 元 素 以 使 该 段 对 应 于 块 缓冲 区 :把 bh->b_page 
赋 给 bi _ io _vec[0].bv_ page, 把 bh->b_size 冉 给 bi _ io vec[0] .bv_len, 并 
把 块 缓冲 区 在 页 中 的 偏 移 量 bh->b_qata 赋 给 bi io vec[0].bv _ offset。 

e. 把 bi_vcnt 置 为 1 (只 有 一 个 涉及 bio 的 段 ), 并 把 bi_idx 置 为 0 (将 要 传输 的 
是 当前 段 )。 

f. 把 end_bio_bh_io_sync() 的 地 址 赋 给 bi_enqd_io 字 7 段 , 并 把 缓冲 区 首部 的 地 
址 贼 给 bi_private 字 段 ， 数据 传输 结束 时 调用 国 数 〈 见 下 面 )。 

递增 bio 的 引用 计数 器 ( 它 变 为 2)。 

调用 submit_bio(), 把 bi_rw 标 志 设 置 为 数据 传输 的 方向 ， 更 新 每 CPU 变量 

page_states 以 表示 读 和 写 的 而 区 数 ,并 对 bio 摘 述 符 调用 generic_make_recuest () 

国 数 。 

递减 bio 的 使 用 计数 器 ， 因 为 bio 描述 符 现 在 已 经 被 插 和 人 LO 调度 程序 的 队列 ， 所 

以 没有 释放 bio 描述 符 。 

返回 0 (成 功 )。 


当 针 对 bio 上 的 WO 数据 传输 终止 的 了 时候， 内 核 执 行 pi_end_io 方 法 ， 具 体 来 说 执行 
endq_bio_bh_io_syncf() 国 数 。 后 者 本 质 上 从 bio 的 bi_private 字 段 获 取 缓 冲 区 首部 的 
地 址 ， 然 后 调用 缓冲 区 首部 (在 调用 submit_bh () 之 前 已 为 它 正确 赋值 ) 的 方法 
b_enq_io， 最 后 调用 bio_put () 释 放 bio 结构 。 


1 _rw_blockO 函 数 


有 些 时 候 内 核 必须 立刻 触发 儿 个 数据 块 的 数据 传输 ， 这 些 数据 块 不 一 定 物 理 上 相 邻 。 
11_rw_block() 尔 数 接收 的 参数 有 数据 传输 的 方向 (本质 上 就 是 READ 或 WRITE)、 要 
传输 的 数据 块 的 块 号 以 及 指向 块 缓冲 区 所 对 应 的 缓冲 区 首部 的 指针 数组 ,该 函数 在 所 有 
缓冲 区 首部 上 进行 循环 ， 每 次 循环 执行 下 面 的 操作 ; 


] . 


检查 并 设置 缓冲 区 首部 的 BH_Lock 标 志 ; 如 果 绥 冲 区 已 经 被 锁 住 , 而 另外 一 个 内 核 
控制 路 径 已 经 微 活 了 数据 传输 ， 就 不 处 理 这 个 缓冲 区 ， 而 跳 转 到 第 9 步 。 

把 缓冲 区 首部 的 使 用 计数 器 b_count 加 1。 

如 果 数 据 传输 的 方向 是 WRITE， 就 让 缓 神 区 首部 的 方法 b_end_io 指向 国 数 
end_buffer_write_sync() 的 地 址 ,否则 让 lb_enqd_io 指 向 end_buffer_read sync1() 
国 数 的 地 址 。 
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4. ”如 果 数 据 传输 的 方向 是 WRITE， 就 检查 并 清除 缓冲 区 首部 的 BH_Dirty 标志 。 如 
果 该 标志 没有 置 位 ， 就 不 必 把 块 写 和 人 磁盘， 因此 跳 转 到 第 7 步 。 


5. 如果 数 据 传输 的 方向 是 READ 或 READA( 向 前 读 ), 检查 缓冲 区 首部 的 BH_Uptodate 
标志 是 否 被 置 位 ， 如 果 是 ， 就 不 必 从 磁盘 读 块 ， 因 此 跳 转 到 第 7 步 。 


6. ”此 时 必须 读 或 写 数 据 块 ; 调用 submit_bh() 国 数 把 缓冲 区 首部 传递 到 通用 块 层 , 然 
后 跳 转 到 第 9 步 。 


7. 通过 清除 BH_Lock 标志 为 缓冲 区 首部 解锁 ,然后 唤醒 所 有 等 待 块 解锁 的 进程 。 
8. 递减 缓冲 区 首部 的 b_count 字段 。 


9. 如 有 果 数 组 中 还 有 其 他 的 缓冲 区 首部 要 处 理 ,就 选择 下 一 个 缓冲 区 首部 并 跳 转 回 到 第 
1 步 ， 否 则 ， 就 结束 。 


注意 , 如果 国 数 11.rw_block() 把 缓冲 区 首部 传递 到 通用 块 层 , 而 留 下 加 了 锁 的 缓冲 区 
和 增加 了 的 引用 计数 器 , 这样， 在 完成 数据 传输 之 前 就 不 可 能 访问 该 缓冲 区 ,也 不 可 能 
释放 这 个 缓冲 区 。 当 块 的 数据 传送 结束 时 ， 内 核 执行 缓冲 区 首部 的 b_endq_io 方 法 。 假 
设 设 有 LO 错误 ,endq_buffer_write_sync() 和 endq_buffer_reaaq_sync() 国 数 只 是 简 
单 地 把 缓冲 区 首部 的 BH_Uptodate 字 段 置 位 ， 为 缓冲 区 解锁 ， 并 递减 它 的 引用 计数 器 。 


把 脏 页 写 入 磁盘 


正如 我 们 所 了 解 的 , 内 核 不 断 用 包含 块 设备 数据 的 页 填充 页 高 速 缓存 。 只 要 进程 修改 了 
数据 ， 相 应 的 页 就 被 标记 为 脏 页 ， 即 把 它 的 PG_Girty 标志 置 位 。 


Unix 系 统 允许 把 脏 缓 冲 区 写 入 块 设备 的 操作 延迟 执行 ,因为 这 种 策略 可 以 显著 地 提高 系 
统 的 性 能 ,对 高 速 缓存 中 的 页 的 几 次 写 操 作 可 能 只 需 对 相应 的 磁盘 块 进行 一 次 缓慢 的 物 
理 更 新 就 可 以 满足 。 此 外 ， 写 操作 没有 读 操作 那么 紧迫 ， 因 为 进程 通常 是 不 会 由 于 延迟 
写 而 挂 起 , 而 大 部 分 情况 都 因为 延迟 读 而 挂 起 。 正 是 由 于 延迟 写 , 使 得 任 一 物理 块 设备 
平均 为 读 请 求 提供 的 服务 将 多 于 写 请 求 。 

一 个 脏 页 可 能 直到 最 后 一 刻 ( 即 直到 系统 关闭 时 ) 都 一 直 逗 留 在 主 存 中 。 然 而 ， 从 延迟 
写 策略 的 局 限 性 来 看 ， 它 有 两 个 主要 的 缺点 : 

。 ”如 果 发 生 了 硬件 错误 或 电源 掉 电 的 情况 ， 那 么 就 无 法 再 获得 RAM 的 内 容 ， 因 此 ， 

从 系统 局 动 以 来 对 文件 进行 的 很 多 修改 就 丢失 了 。 


。 ”页 高 速 缓存 的 大 小 (由 此 存放 它 所 需 的 RAM 的 大 小 ) 就 可 能 要 很 大 一 一 至 少 要 
与 所 访问 块 设 备 的 大 小 相同 。 
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因此 ， 在 下 列 条 件 下 把 胜 页 刷新 〈 写 入 ) 到 磁盘 : 


。 ”页 高 速 缓存 变 得 太 满 ， 但 还 需要 更 多 的 页 ， 或 者 脏 页 的 数量 已 经 太 多 。 

。 ”自从 页 变 成 脏 页 以 来 已 过 去 太 长 时 间 。 

。 ”进程 请 求 对 块 设 备 或 者 特定 文件 任何 待定 的 变化 都 进行 刷新 。 通 过 调用 sync ()、 
fsync () 或 fdatasync() 系 统 调用 来 实现 (参见 本 章 稍 后 “sync()、fsync() 和 
fdatasync() 系 统 调用 ”一 布 )。 


缓冲 区 页 的 引入 使 问题 更 加 复杂 。 与 每 个 缓冲 区 页 相关 的 缓冲 区 首部 使 内 核能 够 了 解 每 
个 独立 块 缓冲 区 的 状态 。 如 果 至 少 有 一 个 缓冲 区 首部 的 BH_Dirty 标 志 被 置 位 , 就 应 该 
设置 相应 缓冲 区 页 的 PG_dirty 标 志 。 当 内 核 选 择 要 刷新 的 缓冲 区 页 时 , 它 扫 描 相 应 的 
缓冲 区 首部 , 并 只 把 脏 块 的 内 容 有 效 地 写 到 磁盘 。 一 旦 内 核 把 缓冲 区 的 所 有 脏 页 刷新 到 
磁盘 ， 就 把 页 的 PG_dirty 标记 清 0。 


pdflush 内 核 线程 

早期 版 本 的 Linux 使 用 bdfiush 内 核 线程 系统 地 扫描 页 高 速 缓存 以 搜索 要 刷新 的 脏 页 , 并 
是 使 用 另 一 个 内 核 线 程 kupdate 来 保证 所 有 的 页 不 会 “ 脏 ” 太 长 的 了 时间 。Linux 2.6 用 一 
组 通用 内 核 线 程 pdfiush 代替 上 述 两 个 线程 。 


这 些 内 核 线程 结构 灵活 ， 它 们 作用 于 两 个 参数 : 一 个 指 同 线程 要 执行 的 函数 的 指针 和 一 
个 函数 要 用 的 参数 。 系 统 中 pdfiush 内 核 线程 的 数量 是 要 动态 调整 的 : pdfiush 线程 太 少 
时 就 创建 ， 太 多 时 就 杀 死 。 因 为 这 些 内 核 线 程 所 执行 的 尔 数 可 以 阻塞 ， 所 以 创建 多 个 而 
不 是 一 个 pdfliush 内 核 线程 可 以 改善 系统 性 能 。 


根据 下 面 的 原则 控制 pdfiush 线程 的 产生 和 消亡 : 


。 ”必须 有 至 少 两 个 ， 最 多 八 个 pdflush 内 核 线程 。 

。 ”如果 到 最 近 的 1s 期 间 没 有 空闲 pdfiush， 就 应 该 创建 新 的 pdflush。 

。 ”如 果 最 近 一 次 pdfiush 变 为 空间 的 时 间 超 过 了 1s， 就 应 该 删除 一 个 pdflush 。 

所 有 的 pdfiush 内 核 线程 都 有 paflush_work 搁 述 符 (如 表 15-6 所 示 )。 空 帮 pdfiush 内 核 
线程 的 描述 符 都 集中 在 patlush_1list 链表 中 ， 在 多 处 理 器 系统 中 ，pdflush_lock 自 旋 
锁 保护 该 链表 不 会 被 并 发 访问 。nr_paflush_threads 变量 ( 注 5) 存放 pdfiush 内 核 线 


程 (空间 的 或 忙 的 ) 的 总 数 。 最 后 ，last_empty_jifs 变量 存放 pdfiush 线程 的 
pdaflush_list 链表 变 为 空 的 时 间 (以 jiffies 表示 )。 


注 5， 可 以 从 详 件 /proc/sys/vm/nr_pdfiush_threads 中 读 出 这 个 变量 的 值 。 
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表 15-6; pdflush_work 描述 符 的 字段 


类 型 字段 说 明 

Struct ‘task .struet who 指向 内 核 线 程 描述 符 的 指针 

void(*) (unsigned long) fn 内 核 线程 所 执行 的 回调 函数 

unsigned long arg0 给 回调 国 数 的 参数 

struct list head list pdflush_list 链表 的 链接 

unsigned long when_i went _ 当 内 核 线 程 可 用 时 的 时 间 (以 jiffies 表 示 ) 
to_sleep 











所 有 pdfliush 内 核 线程 都 执行 函数 __pdflush() , 它 本 质 上 循环 执行 一 直到 内 核 线程 死 
亡 。 我们 不 妨 假设 pdfiush 内 核 线程 是 空闲 的 ， 而 进程 正在 TASK_INTERRUPTIBLE 状态 
睡眠 。 一 但 内 核 线程 被 唤醒 ，__pdflush() 就 访问 其 paflush_work 描 述 符 ， 并 执行 字 
段 fn 中 的 回调 函数 ， 把 arg0 字段 中 的 参数 传递 给 该 函数 。 当 回调 函数 结束 时 ， 
__pdflush() 检 查 last_empty_jifs 变 量 的 值 ; 如 果 不 存 在 空间 pdfiush 内核 线程 的 时 
间 已 经 超过 1s， 而 且 pdfiush 内 核 线程 的 数量 不 到 8 个 ， 国 数 __paflush() 就 创建 另外 
一 个 内 核 线 程 。 相 反 ,， 如果 pdflush_list 链 表 中 的 最 后 一 项 对 应 的 pd1jusp 内 核 线程 空 
朵 时 间 超 过 了 1s， 而 且 系 统 中 有 两 个 以 上 的 pdaush 内 核 线程 ， 函数 __pdflush() 就 终 
止 ; 就 像 在 第 三 章 “ 内 核 线程 ”一 节 所 描述 的 , 相应 的 内 核 线程 执行 _exit() 系 统 调用 ， 
并 因此 而 被 撤消 。 否 则 ， 如 果 系 统 中 pdfiush 内 核 线程 不 多 于 两 个 ，__paflush() 就 把 
内 核 线程 的 pdflush_work 描 述 符 重 新 插入 到 paflush_1list 链 表 中 ,并 使 内 核 线程 睡眠 。 


pdflush_operation () 国 数 用 来 激 医 空闲 的 pdjiush 内核 线 程 。 该 函数 作用 于 两 个 参数 : 
一 个 指针 fn ， 指 向 必须 执行 的 国 数 ， 以 及 参数 arg0。 国 数 执行 下 面 的 步骤 : 


1. 从 pdflush_list 链 表 中 获取 pdaf 指 针 , 它 指向 空 闪 pdfiush 内 核 线 程 的 pdflush_work 
朱 述 符 。 如 果 链 表 为 空 ， 就 返回 -1。 如 果 链 表 中 仅 剩 一 个 元 素 ， 就 把 jiffies 的 值 赋 
给 变量 1ast_empty_]j 站 上 号 


2. 把 参数 fn 和 arg0 分 别 夺 给 pdaf->fn 和 pdf->arg0。 
3. 调用 wake_up_process () 唤 醒 空 用 的 pdaus 内 核 线程 ， 即 pdf->who。 


把 哪些 工作 委托 给 Pdfiush 内 核 线程 来 完成 呢 ? 其 中 一 些 工 作 与 脏 数 据 的 刷新 相关 。 尤 
其 是 ，pdfiush 通常 执行 下 面 的 回调 函数 之 一 : 


。 ”packground_writeout () :系统 地 扫描 页 高 速 缓存 以 搜索 要 刷新 的 脏 页 (参见 下 一 
节 “ 搜 索要 刷新 的 脏 页 ”)。 
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。 ”wb_kupdate(): 检查 页 高 速 缓存 中 是 否 有 “了 胜 ” 了 很 长 时 间 的 页 (参见 本 章 稍 后 
回 写 陈 旧 的 脏 页 ”一 市 )。 


搜索 要 刷新 的 脏 页 


所 有 的 基 树 都 可 能 有 要 刷新 的 胜 页 。 为 了 得 到 所 有 这 些 页 , 就 要 彻底 搜索 与 在 磁盘 上 有 
映像 的 案 引 市 点 相应 的 所 有 aqdqress_space 对 象 。 由 于 页 高 速 缓存 可 能 有 大 量 的 页 , 如 
果 用 一 个 单独 的 执行 流 来 扫描 整个 高 速 缓存 , 会 令 CPU 和 磁盘 长 时 间 繁 忙 。 因 此, Linux 
使 用 一 种 复杂 的 机 制 把 对 页 高 速 缓存 的 扫 摘 划分 为 几 个 执行 流 。 


wakeup_bdflush () 计 数 接收 页 高 速 缓存 中 应 该 刷新 的 脏 页 数量 作为 参数 ,0 值 表示 高 速 
缓存 中 的 所 有 脏 页 都 应 该 写 回 磁盘 。 该 函数 调用 pdflush_operation() 唤 醒 pdfiush 内 
核 线程 (参见 上 一 节 ) ， 并 委托 它 执行 回调 函数 backgroundq_writeout (), 后 者 有 效 地 
从 页 高 速 绿 存 获得 指定 数量 的 上 脏 页 ， 并 把 它们 写 回 磁 盘 。 


当 内 存 不 足 或 用 户 显 式 地 请 求 刷新 操作 时 执行 wakeup_pdflush() 函 数 。 特 别 是 在 下 述 情 
况 下 会 调用 该 函数 : 


。 “用 户 态 进程 发 出 sync() 系 统 调用 (参见 本 章 稍 后 “sync()、fsync(O 和 fdatasyncf() 
系统 调用 ”一 节 ) 


。 grow_buffers () 函数 分 配 一 个 新 缓冲 区 页 时 失败 (参见 前 面 “ 分 配 块 设备 缓冲 区 
页 ”一 节 ) 


. 页 框 回 收 算法 调用 free_more_memory () 或 try_to_free_pages() (参见 第 十 七 章 ) 
。 ”mempool_alloc() 函 数 分 配 一 个 新 的 内 存 池 元 素 时 失败 (参见 第 八 章 “内 存 池 ” 一 节 ) 


此 外 , 执行 background_writeout () 回 调 孙 数 的 pdfiush 内核 线程 是 由 满足 以 下 两 个 条 
件 的 进程 唤醒 的 : 一 是 对 页 高 速 缓存 中 的 页 内 容 进行 了 修改 , 二 是 引起 脏 页 部 分 增加 到 
超过 某 个 用 背景 国 值 (background rpreshnold)。 背 最 装 值 通常 设置 为 系统 中 所 有 页 的 
10%， 不 过 可 以 通过 修改 文件 /proc/sys/vm/dirty_background_ratio 来 调整 这 个 值 。 


background_writeout () 为数 依赖 于 作为 双向 通信 设备 的 writeback_control 结 构 :一 
方面 ， 它 告诉 辅助 图 数 writeback_inoaes() 要 做 什么 ， 另 一 方面 ， 它 保存 写 回 磁盘 的 
页 的 数量 的 统计 值 。 下 面 是 这 个 结构 最 重要 的 字段 : 


Sync_mode 
表示 同步 模式 : WB_SYNC_ALL 表 示 如 果 遇 到 一 个 上 锁 的 索引 节点 , 必须 等 待 而 不 
能 略 过 它 ， WB_SYNC_HOLD 表示 把 上 锁 的 索引 节点 放 入 稍 后 涉及 的 链表 中 ; 
WB_SYNC_NONE 表示 简单 地 略 过 上 锁 的 索引 市 点 。 
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bdi 
如 果 不 为 空 ,就 指向 backing_dqev_info 结 构 。 此 时 ， 只 有 属于 基本 块 设备 的 脏 页 
将 会 被 刷新 。 
older than this 
如 果 不 为 空 ， 就 表示 应 该 略 过 比 指定 值 还 新 的 索引 节操 。 
nr_to_write 
当前 执行 流 中 仍然 要 写 的 脏 页 的 数量 。 


nonblocking 


如 采 这 个 标志 被 置 位 ， 就 不 能 阻塞 进程 。 


background_writeout () 函 数 只 作用 于 一 个 参数 nr_pages， 表示 应 该 刷新 到 磁盘 的 最 
少 页 数 。 它 本 质 上 执行 下 述 步 又 : 


1. 从 每 CPU 变 量 page_state 中 读 当前 页 高 速 缓存 中 页 和 脏 页 的 数量 。 如 果 脏 页 所 占 
的 比例 低 于 给 定 的 阀 值 , 而 且 已 经 至 少 有 nr_pages 页 被 刷新 到 磁盘 ,该 函数 就 终 
止 。 这 个 病 值 通常 大 约 是 系统 中 总 页 数 的 40%， 可 以 通过 写 文件 /proc/sys/vm/ 
dirty_ratio 来 调整 这 个 值 。 


2. 调用 writeback_inodes() 尝 试 写 1024 个 胜 页 ( 见 下 面 )。 
3. 检查 有 效 写 过 的 页 的 数量 ， 并 减少 需要 写 的 页 的 个 数 。 
4. 如 果 已 经 写 过 的 页 少 于 1024 页 ， 或 略 过 了 一 些 页 ， 则 可 能 块 设 备 的 请 求 队列 处 于 


拥塞 状态 ， 此 时 ，background_writeout () 国 数 使 当前 进程 在 特定 的 等 待 队 列 上 
睡眠 100ms， 或 使 当前 进程 睡眠 到 队列 变 得 不 拥塞 。 


5. 返回 到 第 1 步 。 


writeback_inodqes () 国 数 只 作用 于 一 个 参数 ,就 是 指针 wbc , 它 指 同 writeback_control 
描述 符 。 该 描述 符 的 nr_to_write 字 段 存 有 要 刷新 到 磁盘 的 页 数 。 函 数 返 回 时 ,该 字段 存 
有 要 刷新 到 磁盘 的 剩余 页 数 ， 如 果 一 切 顺 利 ， 则 该 字段 的 值 被 黑 为 0。 


我 们 假设 writeback_inodes() 国 数 被 调用 的 条 件 为 : 指针 wbc->bdi 和 wbc 
->olqer_ than this 被 置 为 NULL,WB_SYNC_NONE 同步 模式 和 wbc->nonblocking 标 
志 置 位 (这 些 值 都 由 backgroung writeout () 国 数 设置 ) 。 国 数 writeback_inodes () 
扫描 在 super_blocks 变量 中 建立 的 超级 块 链表 (参见 第 十 二 章 “ 超 级 块 对 象 ”一 节 )。 
当 遍 历 完整 个 链表 或 刷新 的 页 数 达 到 预期 数量 时 , 就 停止 扫描 。 对 每 个 超级 块 sb, 国 数 
执行 下 述 步 又 : 
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1 . 


检查 sb->s_dirty 或 sb->s_io 链 表 是 否 为 空 ; 第 一 个 链表 和 集中 了 超级 块 的 脏 索 引 
节点 ， 而 第 二 个 链表 集中 了 等 待 被 传输 到 磁盘 的 索引 节点 ( 见 下 面 )。 如 果 两 个 链 
表 都 为 空 ,说明 相应 文件 系统 的 索引 节点 没有 脏 页 , 因此 函数 处 理 链表 中 的 下 一 个 
超级 块 。 


此 时 ， 超 级 块 有 脏 索 引 节点 。 对 超级 块 sb 调用 sync_sb_inodes () ， 该 函数 执行 
下 面 的 操作 : 


a. 


把 sb->s_dirty 的 所 有 索引 节点 插入 sb->s_io 指 向 的 链表 ,并 清空 脏 索 引 节 


从 sb->s..io 获 得 下 一 个 索引 市 点 的 指针 。 如 末 该 链表 为 空 ， 就 返回 。 


如 果 sync_sb_inodes () 国 数 开始 执行 后 ,索引 市 点 变 为 脏 节 点 ， 就 略 过 这 个 
索引 节点 的 脏 页 并 返回 。 和 注意，sb->s_io 链 表 中 可 能 残留 一 些 脏 索 引 节 点 。 


如 果 当 前 进程 是 pdfiush 内 核 线程 ，sync_sb_inodes () 就 检查 运行 在 另 一 个 
CPU 上 的 pdfiush 内 核 线 程 是 否 已 经 试图 刷新 这 个 块 设备 文件 的 脏 页 。 这 是 通 
过 一 个 原子 测试 和 对 索引 节点 的 backing_dev_info 的 BDI_pdflush 标 志 的 设 
置 操作 来 完成 的 。 本 质 上 ， 它 对 同一 个 请 求 队列 上 有 多 个 pdflush 内 核 线 程 是 
毫 无 意义 的 参见 本 章 前 面 “pdflush 内 核 线程 ”一 市 )。 


把 索引 节点 的 引用 计数 器 加 1。 
调用 __writeback_single_inode(}) 回 写 与 所 选择 的 索引 节点 相关 的 脏 缓 冲 区 : 


(1) 如 果 索 引 节 点 被 锁定 , 就 把 它 移 到 上 脏 索引 节点 链表 中 (inode->i_sb->s_ 
dirty) 并 返回 0。( 因 为 我 们 假定 wbc->sync_mode 字段 不 等 于 
WB_SYNC_ALL， 所 以 函数 不 会 因为 等 待 索引 结 点 解锁 而 阻塞 .) 


(2) 使 用 索引 节点 地 址 空间 的 writepages 方 法 , 或 者 在 没有 这 个 方法 的 情况 
下 使 用 mpage_writepages 1() 国 数 来 写 wbc->nr_to_write 个 及 页 。 该 国 
数 调用 finq_get_pages_tag () 国 数 快速 获得 索引 节点 地 址 空间 的 所 有 胜 
页 (参见 本 章 前 面 “ 基 树 的 标记 ”一 节 ) ， 细 节 将 在 下 一 章 描述 。 


(3) 如 果 索 引 节 点 是 脏 的 , 就 用 超级 块 的 write_inodqe 方 法 把 索引 节点 写 到 磁 
盘 。 实 现 该 方法 的 函数 通常 依靠 submit_bh() 来 传输 一 个 数据 块 (参见 本 
章 前 面 “ 向 通用 块 层 提交 缓冲 区 首部 ”一 市 )。 


(4) 检查 索引 节点 的 状态 。 如 果 索 引 节点 还 有 胜 页 ， 就 把 索引 节点 移 回 sb 
->s_dirty 链表 ， 如 果 索 引 节 点 引用 计数 器 为 0， 就 把 索引 节点 移 到 
inode_unused 链表 中 :和 否则 就 把 索引 节点 移 到 inode_in_use 链表 中 。 
(参见 第 十 二 章 “ 索 引 节 点 对 象 ”一 节 )。 
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(5) 返回 在 第 2f(2) 步 所 调用 的 国 数 的 错误 代码 。 


g. 回 到 sync_sb_inodes() 函 数 中 。 如 果 当 前 进程 是 pdfiush 内 核 线 程 , 就 把 在 第 
2d 步 设置 的 BDI_pdfliush 标 志清 0。 


h. 如 果 略 过 了 刚 处 理 的 索引 节点 中 的 一 些 页 ,那么 该 索引 节点 包括 锁定 的 缓冲 区 : 
把 sb->s_io 链 表 中 的 所 有 剩余 索引 节点 移 回 到 sb->s_dirty 链 表 中 ,以 后 将 
重新 处 理 它们 。 


i.、 把 索引 布点 的 引用 计数 器 减 1。 


j. 如 果 wbc->nr_to_write 大 于 0,， 则 回 到 第 2b 步 搜索 同一 个 超级 块 的 其 他 脏 索 
引 节 点 。 耕 则 ，sync_sb_inodes() 函 数 终止 ，。 


3.， 回 到 writeback_inodes() 国 数 中 。 如 果 wbc->nr_to_write 大 于 0， 就 跳 转 到 第 
] 步 ， 并 继续 处 理 全 局 链表 中 的 下 一 个 超级 块 。 否 则 ， 就 返回 。 


回 与 陈旧 的 脏 页 


如 前 所 述 ， 内核 试 图 避免 当 一 些 页 很 久 疫 有 被 刷新 时 发 生 饥 饿 危险 。 因 此 , 胜 页 在 保留 
一 定时 间 后 ， 内 核 就 显 式 地 开始 进行 IO 数据 的 传输 ， 把 脏 页 的 内 容 写 到 磁盘 。 


回 写 陈旧 脏 页 的 工作 委托 给 了 被 定期 唤醒 的 pdflush 内 核 线程 。 在 内 核 初始 化 期 间 ， 
page_writeback_init () 国 数 建立 wb_timer 动 态 定 时 器 ,以 便 定 时 器 的 到 期 时 间 发 生 
在 dirty_writeback_centisecs 文件 中 所 规定 的 几 百 分 之 一 秒 之 后 (通常 是 500 分 之 
一 秒 ， 不 过 可 以 通过 修改 /proc/sys/vm/dirty_writeback_centisecs 文件 调整 这 个 值 )。 定 
时 器 函数 wb_timer_fn() 本 质 上 调用 pdaflush_operation() 国 数 ， 传 递 给 它 的 参数 是 
回调 函数 wb_kupdate() 的 地 址 。 


wb_kupdate() 范 数 遍 历 页 高 速 缓存 搜索 陈旧 的 脏 索 引 布 点 ， 它 执行 下 面 的 步 又 ; 


1. 调用 sync_supers() 函 数 把 脏 的 超级 块 写 到 磁盘 中 (参见 下 一 节 )。 虽然 这 与 页 高 
速 缓存 中 的 页 刷新 没有 很 密切 的 关系 ， 但 对 sync_supers () 的 调用 确保 了 任何 超 
级 块 脏 的 时 间 通 常 不 会 超过 5s。 

2. 把 当前 时 间 减 30s 所 对 应 的 值 (用 jiffies 表 示 ) 的 指针 存放 在 writeback_control 
描述 符 的 older_than_tnis 字段 中 。 人 允许 一 个 页 保持 脏 状 态 的 最 长 时 间 是 30s。 


3. 根据 每 CPU 变量 page_state 确定 当前 在 页 高 速 缓存 中 胜 页 的 大 概 数量 。 


4. 反复 调用 writeback_inoqes (), 直到 写 入 磁盘 的 页 数 等 于 上 一 步 所 确定 的 值 , 或 
直到 把 所 有 保持 脏 状 态 时 间 超 过 30s 的 页 都 写 到 磁盘 。 如果 在 循环 的 过 程 中 一 些 请 
求 队列 变 得 拥塞 ， 国 数 就 可 能 去 睡眠 。 
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5. ”用 mod_timer() 重 新 启动 wb_timer 动 态 定 时 器 :一旦 从 调用 该 函数 开始 经 历 过 文 
件 dirty_writeback_centisecs 中 规定 的 儿 百 分 之 一 秒 时 间 后 , 定时 器 到 期 (或 
者 如 果 本 次 执行 的 时 间 太 长 ， 就 从 现在 开始 1s 后 到 期 ) 。 


sync()、fsync() 和 fdatasync() 系 统 调用 
在 本 节 我 们 简要 介绍 用 户 应 用 程序 把 脏 缓冲 区 刷新 到 磁盘 会 用 到 的 三 个 系统 调用 ， 


Sync ( ) 
允许 进程 把 所 有 的 脏 缓 冲 区 刷新 到 磁盘 。 
fsync() 
允许 进程 把 属于 特定 打开 文件 的 所 有 块 刷 新 到 磁盘 。 


fdatasync() 


与 fsync() 非 常 相似 ， 但 不 刷新 文件 的 索引 节点 块 。 


sync () 系 统 调用 
sync() 系 统 调用 的 服务 例 程 sys_sync () 调用 一 系列 辅助 函数 : 


wakeup_bdflush'(0}), 
Sync_inodes'0); 
sync_Supers(}); 
sync_filesystems (0}),; 
sync_filesystems(1)}),， 
sync_inodes (1); 


正如 上 一 节 所 描述 的 , wakeup_bdflush() 启 动 pdfiush 内 核 线 程 , 把 页 高 速 缓 存 中 的 所 
有 脏 页 刷新 到 磁盘 。 


sync_inodes () 函数 扫描 超级 块 的 链表 以 搜索 要 刷新 的 脏 索 引 节 点 ， 它 作用 于 参数 wait， 
该 参数 表示 在 执行 完 刷新 之 前 函数 是 否 必 须 等 待 。 国 数 扫 皂 当前 已 安装 的 所 有 文件 系统 的 
超级 块 ; 对 于 每 个 包含 脏 索 引 节 点 的 超级 块 , sync_inodes () 首先 调用 sync_sb_inodqes () 
刷新 相应 的 脏 页 (我 们 在 前 面 “ 搜 索要 刷新 的 脏 页 ”一 节 曾 对 该 函数 进行 过 说 明 )， 然 后 
调用 sync_blockdev() 显 式 刷 新 该 超级 块 所 在 块 设备 的 脏 缓冲 区 页 。 这 一 步 之 所 以 能 完 
成 是 因为 许多 磁盘 文件 系统 的 write_inoqe 超 级 块 方法 仅仅 把 磁盘 索引 节点 对 应 的 块 缓冲 
区 标记 为 “ 胜 ”， 国 数 sync_blockaev () 确 保 把 sync_spb_incqes () 所 完成 的 更 新 有 效 地 
写 到 磁盘 。 


国 数 sync_supers () 把 脏 超 级 块 写 到 磁盘 , 如 果 需 要 , 也 可 以 使 用 适当 的 write_super 
超级 块 操作 。 最 后 ，sync_filesystems () 为 所 有 可 写 的 文件 系统 执行 sync_fs 超级 块 
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方法 。 该 方法 只 不 过 是 提供 给 文件 系统 的 一 个 “钩子 ,在 需要 对 每 个 同步 执行 一 些 特殊 
操作 时 使 用 ， 只 有 像 Ext3( 参 见 第 十 八 章 ) 这 样 的 日 志文 件 系 统 使 用 这 个 方法 。 


注意 ，sync_inodes() 和 sync_filesystems () 都 是 被 调用 两 次 ， 一 次 是 参数 wait 等 
于 0 时 ， 另 一 次 是 wait 等 于 1 时 。 这 样 做 的 目的 是 : 首先 ， 它 们 把 未 上 锁 的 索引 节点 
快速 刷新 到 磁盘 ， 其 次 ,它们 等 待 所 有 上 锁 的 索引 节点 被 解锁 ， 然 后 把 它们 逐个 地 写 到 
磁盘 。 


fsync () 和 fdatasync () 系统 调用 


系统 调用 fsync ( ) 强制 内 核 把 文件 描述 符 参 数 fa 所 指定 文件 的 所 有 及 缓冲 区 写 到 磁 想 
中 《如 果 需 要 ,还 包括 存 有 索引 节点 的 缓冲 区 ) 。 相 应 的 服务 例 程 获得 文件 对 象 的 地 址 ， 
并 随后 调用 fsync 方法 。 通 常 这 个 方法 以 调用 函数 __writeback_single_inode () 结 
束 , 该 函数 把 与 被 选中 的 索引 节点 相关 的 脏 页 和 索引 节点 本 身 都 写 回 磁盘 (参见 本 章 前 
面 “搜索 要 刷新 的 胜 页 ”一 节 )。 


系统 调用 fdqatasync ( ) 与 fsync ( ) 非常 相似 , 但 是 它 只 把 包含 文件 数据 而 不 是 那些 包含 
索引 节点 信息 的 缓冲 区 写 到 磁盘 。 由 于 Linux 2.6 没有 提供 专门 的 faatasync () 文 件 方 
法 ， 该 系统 调用 使 用 fsync 方 法 ， 因 此 与 fsync() 是 相同 的 。 
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访问 文件 





访问 基于 磁盘 的 文件 是 一 种 复杂 的 活动 ， 既 涉及 VFS 抽象 层 (第 十 二 章 )、 块 设备 的 处 
理 〈 第 十 四 章 )， 也 涉及 磁盘 高 速 缓存 的 使 用 (第 十 五 章 )。 本 章 介 绍 内 核 如 何 使 用 这 些 
技术 实现 文件 的 读 及 写 。 本 章 所 涵盖 的 主题 既 应 用 于 磁盘 文件 系统 的 普通 文件 , 也 应 用 
于 块 设备 文件 ， 将 这 两 种 文件 系统 都 简单 地 统称 为 “文件 ”。 


本 章 所 介绍 的 内 容 是 调用 了 读 或 写 方 法 之 后 (如 第 十 二 章 中 所 描述 ) 系统 所 处 的 阶段 。 
在 这 里 , 我 们 会 说 明 每 个 读 操作 最 终 是 如 何 把 所 需要 的 数据 传递 给 用 户 态 进程 的 , 以 及 
每 个 写 操作 最 终 又 是 如 何 把 数据 标志 为 “就 绪 ” 以 传送 到 磁盘 上 的 。 其 他 传送 过 程 是 使 
用 第 十 四 章 和 第 十 五 章 中 描述 的 技术 来 处 理 的 。 


访问 文件 的 模式 有 多 种 。 我 们 在 本 章 考 虑 如 下 几 种 情况 ; 


趣 范 樟 式 
规范 模式 下 文件 打开 后 , 标志 0_SYNC 与 0_DIRECT 清 0, 而 且 它 的 内 容 是 由 系统 
调用 read() 和 write() 来 存 取 。 系 统 调用 read ) 将 阻塞 调用 进程 ， 直 到 数据 被 
拷贝 进 用 户 态 地 址 空间 (内核 允 许 返回 的 字 节 数 少 于 要 求 的 字 节 数 )。 但 系统 调用 
write() 不 同 , 它 在 数据 被 拷贝 到 页 高 速 缓存 (延迟 写 ) 后 就 马上 结束 。 这 会 在 “ 读 
写 文 件 ” 这 一 节 详 细 闸 述 。 

同步 春 式 
同步 模式 下 文件 打开 后 ,标志 0_SYNC 置 1 或 稍 后 由 系统 调用 fcnt1() 对 其 置 1。 
这 个 标志 只 影响 写 操作 ( 读 操作 总 是 会 阻塞 )， 它 将 阻塞 调用 进程 ， 直 到 数据 被 有 
效 地 写 人 磁盘 。 这 也 会 在 “ 读 写 文件 ”这 一 节 详 细 立 述 。 
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内 存 胸 身 模式 
内 存 映 射 模式 下 文件 打开 后 ,应 用 程序 发 出 系统 调用 mmap 1() 将 文件 映射 到 内 存 中 。 
因此 ， 文 件 就 成 为 RAM 中 的 一 个 字 节 数组 ， 应 用 程序 就 可 以 直接 访问 数组 元 素 ， 
而 不 需 用 系统 调用 reaq()、writel) 或 lseekl)。 这 将 在 “内 存 映射 ”这 一 节 详 细 

直 蕉 WO 秦 式 
直接 UVO 模式 下 文件 打开 后 , 标志 O_DIREcT 置 1。 任 何 读 写 操作 都 将 数据 在 用 户 
态 地 址 空间 与 磁盘 间 直 接 传送 而 不 通过 页 高 速 缓存 。 这 将 在 “直接 LO 传送 ”这 一 
节 详 细 曾 述 。( 标 志 0_sYNC 和 O_DIRECT 的 值 可 以 有 四 种 组 合 。) 

异步 模式 
异步 模式 下 ， 文 件 的 访问 可 以 有 两 种 方法 ， 即 通过 一 组 POSIX API 或 Linux 特有 
的 系统 调用 来 实现 。 所谓 异 步 模式 就 是 数据 传输 请 求 并 不 阻塞 调用 进程 , 而 是 在 后 
台 执 行 ， 同 时 应 用 程序 继续 它 的 正常 运行 。 这 将 在 “异步 /OQO” 这 一 布 详细 徊 述 。 


读 写 文件 

在 第 十 二 章 的 “read() 和 write() 系 统 调用 ”一 节 中 已 经 说 明了 read() 和 write() 系 统 
调用 是 如 何 实现 的 。 相应 的 服务 例 程 最 终 会 调用 文件 对 象 的 read 和 write 方 法 , 这 两 
个 方法 可 能 依赖 文件 系统 。 对 磁盘 文件 系统 来 说 , 这 些 方法 能 够 确定 正 被 访问 的 数据 所 
在 物理 块 的 位 置 ， 并 激 话 块 设 备 驱 动 程 序 开 始 数据 传送 。 


读 文件 是 基于 页 的 ， 内 核 总 是 一 次 传送 几 个 完整 的 数据 页 。 如 果 进 程 发 出 read() 系统 
调用 来 读 取 一 些 字 节 ，, 而 这 些 数据 还 不 在 RAM 中 ，, 那么 , 内 核 就 要 分 配 一 个 新 页 框 , 并 
使 用 文件 的 适当 部 分 来 填充 这 个 页 , 把 该 页 加 入 页 高 速 缓存 , 最 后 把 所 请 求 的 字 节 拷贝 
到 进程 地 址 空间 中 。 对 于 大 部 分 文件 系统 来 说 , 从 文件 中 读 取 一 个 数据 页 就 等 同 于 在 磁 
盘 上 查找 所 请 求 的 数据 存放 在 哪些 块 上 。 只 要 这 个 过 程 完成 了 , 内 核 就 可 以 通过 同 通用 
块 层 提 区 适当 的 IO 操作 来 填充 这 些 页 。 事 实 上 , 大 多 数 磁 盘 文 件 系 统 的 read 方 法 是 由 
名 为 generic_file_readf) 的 通用 图 数 实 现 的 。 


对 基于 磁盘 的 文件 来 说 , 写 操作 的 处 理 相 当 复 杂 , 因为 文件 大 小 可 以 改变 , 因此 内 核 可 能 
会 分 配 磁盘 上 的 一 些 物理 块 。 当 然 , 这 个 过 程 到 底 如 何 实现 要 取决 于 文件 系统 的 类 型 。 不 
过 ,很 多 磁盘 文件 系统 是 通过 通用 国 数 generic_file_write() 实 现 它 们 的 write 方法 的 。 
这 样 的 文件 系统 如 Ext2、System VY/Coherent/Xenix 及 Minix。 另 一 方面 ， 还 有 几 个 文件 
系统 (如 日 志文 件 系统 和 网 络 文件 系统 ) 通过 自 定义 的 函数 实现 它们 的 write 方 法 。 
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从 文件 中 读 取 数 据 


让 我 们 讨论 一 下 generic_file_read(}) 函 数 ， 该 函数 实现 了 几乎 所 有 磁盘 文件 系统 中 
的 普通 文件 及 任何 块 设备 文件 的 read 方 法。 该 国 数 作用 于 以 下 参数 


dy 
文件 对 象 的 地 址 
buf 
用 户 态 线性 区 的 线性 地 址 ， 从 文件 中 读 出 的 数据 必须 存放 在 这 里 
COUNnt 
要 读 取 的 字符 个 数 
PROS 
指向 一 个 变量 的 指针 ,该 变量 存放 读 操 作 开 始 处 的 文件 偏 移 量 (通常 为 filp 文 件 
对 象 的 f_pos 字段 ) 
第 一 步 , 图 数 初始 化 两 个 描述 符 。 第 一 个 描述 符 存放 在 类 型 为 iovec 的 局 部 变量 local_iov 
中 ， 它 包含 用 户 态 缓冲 区 的 地 址 (buf) 与 长 度 (count)， 该 缓冲 区 用 来 存放 待 读 文件 中 
的 数据 。 第 二 个 描述 符 存 放 在 类 型 为 kiocb 的 局 部 变量 kiocb 中 ; 它 用 来 跟踪 正在 运行 的 
同步 和 异步 MO 操作 的 完成 状态 。kiocb 描 述 符 的 主要 字段 描述 如 表 16-1 所 示 。 


表 16-1; kiocb 描述 符 的 主要 字段 


类 型 字段 说 明 

struct list_head ki_run_list 以 后 要 重新 操作 的 I/O 链表 指针 

long ki_flags kiocb 摘 述 符 的 标志 

int ki users kiocb 描述 符 和 的 引用 计数 器 

unsigned int ki_key 异步 1/0 操作 标识 和 罕 ， 同步 MO 操作 标识 符 为 
KIOCB_SYNC_KEY (Oxffffffff) 

struct file * ki_filp 与 正在 进行 的 IO 操作 相关 的 文件 对 象 指针 

struct kioctx * ki_ctx 异步 IO 环境 描述 符 指针 (参见 本 童 后 面 的 “ 异 
步 110” 一 节 ) 

int (*)} ki_cancel 当 取 消 异 步 1/O 操作 时 所 调用 的 方法 


(struct kioch *, 
struct io event *) 


ssize_t (*) ki_retry 当 重 试 异步 W/O 操作 时 所 调用 的 方法 


(struct kiocbh 去) 





表 16-1: kiocb 描述 符 的 主要 字段 ( 续 ) 


类 型 字段 说 明 

void (*) ki_Ator 当 清 除 kiocb 描述 符 时 所 调用 的 方法 

(struct kiocb *) 

struct list_heaqd ki_list 在 异步 操作 环境 下 ， 当 前 进行 的 1/Q 操作 链表 
的 指针 

union Ki_obj 对 于 同步 操作 ， 它 是 指向 发 出 读 操 作 的 进程 描 
述 符 的 指针 ， 对 于 异步 操作 ， 它 是 指向 用 户 态 
数据 结构 iocb 的 指针 

__u64 ki_user_data 给 用 户 态 进程 返回 的 值 

loff_t ki_pos 正在 进行 MO 操作 的 当前 文件 位 置 

unsigned short ki_opcode 操作 类 型 (read、write 或 sync) 

size 上 ki_nbytes 被 传输 的 字 节 数 

char * ki_buf 用 户 态 缓冲 区 的 当前 位 置 

Size 上 ki_left 待 传输 的 字 节 数 

wait_queue t kl_wait 异步 1/0 操作 等 待 队列 

void * private 由 文件 系统 层 自由 使 用 


测 数 generic_file_read|() 通 过 执行 宏 ijnit_sync_kiocb 来 初始 化 描述 符 kiocbp, 并 设置 
一 个 同步 操作 对 象 的 有 关 字 段 。 具体 地 说 就 是 , 该 宏 设置 ki_key 字 段 为 KIOCB_SYNC_KEY、 
ki_filp 字 段 为 tilPp、Kki obj 字段 为 current。 


然后 ,generic_file_read() 调 用 __generic_file aio read{}) 并 将 刚 填 完 的 ijovec 
和 kiccb 描 述 符 地 址 传 给 它 。 后 面 这 个 函数 返回 一 个 值 , 这 个 值 通 常 就 是 从 文件 有 效 读 
人 的 字 节 数 。generic_file_read{) 返 回 值 后 结束 。 


国 数 _generic_file_aio_read() 是 所 有 文件 系统 实现 同步 和 异步 读 操作 所 使 用 的 通 
用 例 程 。 该 国 数 接受 四 个 参数 : kiocb 描 述 符 的 地 址 iocb.iovec 描 述 符 数组 的 地 址 iocv、 
数组 的 长 度 和 存放 文件 当前 指针 的 一 个 变量 的 地 址 ppos。iovec 描述 符 数组 被 函数 
generic_ftile_readl() 调 用 时 只 有 一 个 元 素 ， 访 元素 描述 待 接收 数据 的 用 户 态 缓冲 区 
( 注 工 )。 


注 1: read() 系 统 调 用 的 一 个 叫做 readv{) 的 变 体 克 许 应 用 程序 定义 多 个 用 户 态 姜 冲 区 , 从 文 
件 读 出 的 数据 分 散 存 放 在 其 中 ; _generic_file_aio_read() 范 数 电 实现 这 种 功能 ,下 
面 我 们 要 假设 从 文件 读 出 的 数据 将 只 拷贝 到 一 个 用 户 态 冲冲 区 ， 不过， 可 以 想象 ， 使 用 
多 个 缓冲 区 虽然 商 单 ， 但 需要 执行 更 多 的 步骤 。 
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我 们 现在 来 说 明 函 数 __generic_file_aio_read() 的 操作 。 为 简单 起 见 , 我 们 只 针对 
最 常见 的 情形 ， 即 对 页 高 速 缓 存 文件 的 系统 调用 read() 所 引发 的 同步 操作 。 本 章 后 面 
我 们 会 阐述 该 函数 执行 的 其 他 情形 。 同 样 ， 我 们 不 讨论 如 何 对 错误 和 异常 的 处 理 。 


该 函数 执行 的 步骤 如 下 : 
1. 调用 access_ok() 来 检查 ijovec 描 述 符 所 描述 的 用 户 态 缓冲 区 是 否 有 效 。 因 为 起 


始 地 址 和 长 度 已 经 从 sys_read |() 服 务 例 程 得 到 , 因此 在 使 用 前 需要 对 它们 进行 检 
查 (参见 第 十 章 “ 验 证 参数 ”一 节 )。 如 果 和 参数 无 效 ， 则 返回 错误 代码 -EFAULT，。 


2. 建立 一 个 读 操 作 描 述 符 ,也 就 是 一 个 reaa_daescriptor 上 类 型 的 数据 结构 。 该 结构 
存放 与 单个 用 户 态 缓冲 相关 的 文件 读 操作 的 当前 状态 ,该 描述 符 的 字段 参见 表 16-2， 

3， 调用 函数 ao_generic_file_read()， 传 送 给 它 文 件 对 象 指针 fijljp、 文 件 偏 移 量 
指针 ppos、 刚 分 配 的 读 操 作 描 述 符 的 地 址 和 函数 file_reaqd_actor 1) 的 地 址 (后 
面 还 会 曾 述 )。 

4. ”返回 拷贝 到 用 户 态 缓 促 区 的 字 节 数 , 即 read_descriptor_t 数据 结构 中 written 
字段 的 值 。 


表 16-2， 读 操作 描述 符 的 字段 


类 型 字段 说 明 

Size 七 written 已 经 拷贝 到 用 户 杰 缓冲 区 的 字 节 数 
size_t count 待 传送 的 字 节 数 

char * buf 在 用 户 态 缓冲 区 中 的 当前 位 置 

int error 读 操作 的 错误 码 (0 表示 无 错误 ) 


i i Ra 


国 数 ao_generic_file_read() 从 磁盘 读 人 所 请 求 的 页 并 把 它们 拷贝 到 用 户 态 缓 名 区 。 
具体 执行 如 下 步骤 ; 


1. 获得 要 读 取 的 文件 对 应 的 address_space 对 象 ; 它 的 地 址 存放 在 filp->f _mapping。 


2， 获得 地 址 空间 对 象 的 所 有 者 ， 即 索引 节点 对 象 ， 它 将 拥有 填充 了 文件 数据 的 页 面 。 
它 的 地 址 存放 在 address_space 对 象 的 host 字 段 中 。 如果 所 读 文件 是 块 设备 文件 ， 
那么 所 有 者 就 不 是 由 filp->f_dentry->d_inode 所 指向 的 索引 节点 对 象 ， 而 是 
bdev 特殊 文件 系统 中 的 索引 节点 对 象 。 

3. ”把 文件 看 作 细 分 的 数据 页 (每 页 4096 字 节 ), 并 从 文件 指针 *ppos 导 出 第 一 个 请 求 


字 节 所 在 页 的 逻辑 号 ， 即 地 址 空间 中 的 页 索引 ， 并 把 它 存 放 在 index 局 部 变量 中 。 
也 把 第 一 个 请 求 字 节 在 页 内 的 偏 移 量 存放 在 offset 局 部 变量 中 。 
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和 


开始 一 个 循环 来 读 入 包含 请 求 字 节 的 所 有 页 ， 要 读数 据 的 字 节 数 存 放 在 
read_descriptor_t 描 述 符 的 count 字段 中 。 在 一 次 单独 的 循环 期 间 ， 函 数 通过 
执行 下 列 的 子 步 又 来 传送 一 个 数据 页 : 


和 


如 果 index*4096+offset 超 过 存放 在 索引 节点 对 象 的 1_size 字 段 中 的 文件 大 
小 ， 则 从 循环 退出 ， 并 中 到 第 5$ 步 。 


调用 cond_resched() 来 检查 当前 进程 的 标志 TIF_NEED_RESCHED。 如 果 读 
标志 置 位 ， 则 调用 函数 schedule |()。 


如 果 有 预 读 的 页 ， 则 调用 page_cache_readahead() 读 人 这 些 页 面 。 我 们 在 后 
面 “文件 的 预 读 ” 一 节 讨 论 预 读 。 


调用 find_get_page() ,并 传人 指向 address_space 对 象 的 指针 及 索引 值 作为 
参数 ; 它 将 查找 页 高 速 缓存 以 找到 包含 所 请 求 数据 的 页 描述 符 (如 果 有 的 话 )。 


如 果 findq_get_pagef) 返 回 NULL 指针 ,， 则 所 请 求 的 页 不 在 页 高 速 缓存 中 。 如 
果 这 样 ， 它 将 执行 如 下 步骤 


(1) 调用 handqle_ra_ miss() 来 调整 预 读 系 统 的 参数 。 
(2) 分 配 一 个 新 页 。 


(3) 调用 adda_to_page_cache() 插 入 该 新 页 描述 符 到 页 高 速 缓存 中 。, 记 住 该 函 
数 将 新 页 的 PG_1locked 标志 置 位 。 


(4) 调用 lru_cache_add() 插 入 新 页 描述 符 到 LRU 链表 (参见 第 十 七 章 )。 
(5) 跳 到 第 4j 步 ， 开 始 读 文件 数据 。 

如 果 函 数 已 运行 至 此 ,说 明 页 已 经 位 于 页 高 速 缓存 中 ,检查 标志 PG_uptodate， 
如 果 管 位 ， 则 页 所 存 数据 是 最 新 的 ， 因 此 无 需 从 磁盘 读数 据 。 跳 到 第 4m 步 。 
页 中 的 数据 是 无 效 的 , 因此 必 有 颂 从 磁盘 读 取 。 函数 通 过 调用 lock-page 1!) 函数 
获取 对 页 的 互 斥 访问。 正如 第 十 五 章 “ 页 商 速 缓 存 的 处 理 国 数 ” 一 节 中 所 描述 
的 , 如 果 PG_locked 已 经 置 位 , 则 1lock_page(} 阻 塞 当 前 进程 直到 标志 被 清 0。 


. 现在 页 已 由 当前 进程 锁定 。 然 而 , 另 一 个 进程 也 许 会 在 上 一 步 之 前 已 从 页 高 速 缓存 


中 删除 该 页 ， 那么 ， 它 就 要 检查 页 描述 符 的 mapping 字 段 是 否 为 NULL。 在 这 种 情 
形 下 ， 它 将 调用 unlock_page () 来 解锁 页 减少 它 的 引用 计数 (find_get_page() 
增加 计数 )， 并 跳 回 第 4a 步 来 重读 同一 页 。 


:如 采 国 数 已 运行 至 此 ， 说 明 页 已 被 锁定 且 在 页 高 速 缓 存 中 。 再 次 检查 标志 


PG_uptodate， 因 为 另 一 个 内 核 控 制 路 径 可 能 已 经 完成 第 4f 步 和 第 4g 步 的 必 
要 读 操 作 。 如 果 标 志 置 位 , 则 调用 unlock_page() 并 跳 至 第 4m 来 跳 过 读 操作 。 
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全 量 


现在 真正 的 MO 操作 可 以 开始 了 , 调用 文件 的 addqress_space 对 象 之 readpage 
方法 。 相 应 的 国 数 会 负责 激 话 磁盘 到 页 之 间 的 IO 数据 传输 。 我 们 以 后 再 讨论 
该 函数 对 普通 文件 与 块 设备 文件 都 会 做 些 什 么 。 

如 果 标 志 PG_uptodate 还 没有 置 位 , 则 它 会 等 待 直到 调用 lock_page |) 函数 后 
页 被 有 效 读 人 。 访 页 在 第 4g 步 中 锁定 , 一旦 读 操作 完成 就 被 解锁 。 因 此 当前 进 
程 在 IO 数据 传输 完成 时 才 停 止 睡 眠 。 

如 果 index 超 出 文件 包含 的 页 数 (该 数 是 通过 将 inode 对 象 的 i_size 字 段 的 值 
除 于 4096 得 到 的 ) ， 那 么 它 将 减少 页 的 引用 计数 器 ， 并 跳出 循环 至 第 $ 步 。 这 
种 情况 发 生 在 这 个 正 被 本 进程 读 的 文件 同时 有 其 他 进程 正在 删 减 它 的 时 候 。 


. 将 应 被 拷 入 用 户 态 缓冲 区 的 页 中 的 字 市 数 存放 在 局 部 变量 nr 中 。 这 个 值 应 该 


等 于 页 的 大 小 (4096 字 节 ), 除非 offset 非 0 (这 只 发 生 在 读 请 求 书 的 首尾 页 
时 ) 或 请 求 数据 不 全 在 该 文件 中 。 


， 调用 mark_page_accessed|() 将 标志 FG_referenced 或 PG_active 置 位 ， 从 


而 表示 该 页 正 被 访问 并 且 不 应 该 被 换 出 (参见 第 十 七 章 ) 。 如果 同一 文件 (或 它 

的 一 部 分 ) 在 ao_generic_file_readf) 的 后 续 执 行 中 要 读 几 次 ,那么 这 个 步 

肾 只 在 第 一 次 读 时 执行 。 

现在 到 了 把 页 中 的 数据 拷贝 到 用 户 态 缓冲 区 的 时 候 了 。 为 了 这 么 做 ， 

do_generic_file _ readq() 调 用 file_reaa_actor1) 国 数 , 该 国 数 的 地 址 作为 

参数 传递 。file_read_actor(} 执 行 下 列 步 又 ; 

(1) 调用 kmap(), 该 函数 为 处 于 高 端 内 存 中 的 页 建立 永久 的 内 核 映 射 (参见 第 
八 章 “高 端 内 存 页 框 的 内 核 映射 “一 节 )。 

(2) 调用 __copy_to_user{), 该 函数 把 页 中 的 数据 找 风 到 用 户 态 地 址 空间 
(参见 第 十 章 “ 访 问 进程 地 址 空间 “一 节 )。 注 意 ， 这 个 操作 在 访问 用 户 态 
地 址 空间 时 如 果 有 缺 页 异常 将 会 阻塞 进程 。 

(3) 调用 kunmap () 来 释放 页 的 任 一 永久 内 核 映 射 。 

(4) 更 新 readQ_descriptor 上 描述 符 的 count、written 和 buf 字段 。 

根据 传人 用 户 态 缓冲 区 的 有 将 字 刷 数 来 更 新 局 部 变量 ijndex 和 count。 一 般 情 

况 下 ， 如 果 页 的 最 后 一 个 字 节 已 拷贝 到 用 户 态 缓 串 区 ， 那么 index 的 值 加 1 而 

offset 的 值 清 0， 否则 ，index 的 值 不 变 而 offset 的 值 被 设 为 已 拷贝 到 用 户 

态 缓冲 区 的 字 节 数 。 

减少 页 描述 符 的 引用 计数 痊 。 

如 果 reaqd_descripcor 上 描述 符 的 count 字段 不 为 0, 那么 文件 中 还 有 其 他 数 

据 要 读 ， 跳 至 第 4a 步 继续 循环 来 读 文 件 中 的 下 一 页 数据 。 
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5. ”所 有 请 求 的 或 者 说 可 以 读 到 的 数据 已 读 完 。 函数 更 新 预 读数 据 结 构 filp->f_ra 来 
标记 数据 已 被 顺序 从 文件 读 和 人 (参见 下 一 节 “ 文 件 的 预 读 ”)。 

6. ”把 index*4096+offset 值 屿 给 *ppos， 从 而 保存 以 后 调用 read() 和 write() 进 行 
顺序 访问 的 位 置 。 

7. 调用 upaate_atime() 把 当前 时 间 存 故 在 文件 的 索引 节点 对 象 的 1_atime 字 段 中 ， 
并 把 它 标记 为 脏 后 返回 。 


普通 文件 的 readpage 方法 
我 们 从 前 一 节 看 到 ，do_generic_file_read() 反 复 使 用 readpage 方 法 把 一 个 个 页 从 
磁盘 读 到 内 存 中 。 


address_space 对 象 的 readpage 方 法 存放 的 是 函数 地 址 ， 这 种 函数 有 效 地 激活 从 物理 
磁盘 到 页 高 速 缓存 的 I/O 数据 传送 。 对 于 普通 文件 ， 这 个 字段 通常 指向 调用 
mpage_readpage() 国 数 的 封装 国 数 。 例 如 ，Ext3 文件 系统 的 readpage 方法 由 下 列国 
数 实现 : 

int ext3_readpage (lstruct file *file, struct page *page) 

{ 


return mpage_ readpage (page, ext3 get_ block):; 
】 


需要 封装 函数 是 因为 mpage_readpage() 函 数 接收 的 参数 为 待 填充 页 的 页 描述 符 page 及 
有 助 于 mpage_readpage() 找 到 正确 块 的 函数 的 地 址 get_block。 封 装 国 数 依赖 文件 系 
统 并 因此 能 提供 适当 的 函数 来 得 到 块 。 这 个 函数 把 相对 于 文件 开始 位 置 的 块 号 转换 为 相 
对 于 磁盘 分 区 中 块 位 置 的 逻辑 块 号 (例子 参见 第 十 八 章 )。 当 然 ， 后 一 个 参数 依赖 于 普 
通 文件 所 在 文件 系统 的 类 型 ; 在 前 面 的 例子 中 ， 这 个 参数 就 是 ext3_get_block1) 国 数 
的 地 址 。 所 传递 的 get_block 国 数 总 是 用 缓冲 区 首部 来 存放 有 关 重 要 信息 ， 如 块 设备 
(b_qev 字 段 ) .设备 上 请 求 数据 的 位 置 (b_ blocknr 字 段 ) 和 块 状 态 (b_state 字 段 ) 。 


国 数 mpage_readpage () 在 从 磁盘 读 人 一 页 时 可 选择 两 种 不 同 的 策略 。 如 果 包 含 请 求 数 
据 的 块 在 磁盘 上 是 连续 的 , 那么 函数 就 用 单个 bio 描述 符 向 通用 块 层 发 出 读 1/O 操 作 , 而 
如 果 不 连续 ， 国 数 就 对 页 上 的 每 一 块 用 不 同 的 bio 描述 符 来 读 。get_block 函数 依赖 于 
文件 系统 ， 它 的 一 个 重要 作用 就 是 ， 确定 文件 中 的 下 一 块 在 磁盘 上 是 否 也 是 下 一 块 。 
有 具体 地 说 ，mpage_readpage() 函数 执行 下 列 步 又 : 


1. 检查 页 描述 符 的 PG_private 字 段 : 如 果 置 位 ， 则 该 页 是 缓冲 区 页 ， 也 就 是 该 页 与 
描述 组 成 该 页 的 块 的 缓冲 区 首部 链表 相关 (参见 第 十 五 章 “ 把 块 存放 在 页 高 速 缓存 
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中 ”一 节 )。 这 意味 着 该 页 过 去 已 从 磁盘 读 人 过 ， 而 且 页 中 的 块 在 磁盘 上 不 是 相 邻 
的 。 跳 到 第 11 步 ， 用 一 次 读 一 块 的 方式 读 该 页 。 

得 到 块 的 大 小 (存放 在 page->mapping->host->i_blkbits 索 引 节 点 字段 ), 然后 
计算 出 访问 该 页 的 所 有 块 所 需要 的 两 个 值 ， 即 页 中 的 块 数 及 页 中 第 一 块 的 文件 块 
号 ， 也 就 是 相对 于 文件 起 始 位 置 页 中 第 一 块 的 索引 。 

对 于 页 中 的 每 一 块 ， 调 用 依赖 于 文件 系统 的 get_block 国 数 , 作为 参数 传递 过 去 ， 
得 到 逻辑 块 号 , 即 相 对 于 磁盘 或 分 区 开始 位 置 的 块 索 引 。, 页 中 所 有 块 的 逻辑 块 号 存 
放 在 一 个 本 地 数组 中 ，。 


在 执行 上 一 步 的 同时 , 检查 可 能 发 生 的 异常 条 件 。 具体 有 这 几 种 情况 : 当 一 些 块 在 
磁盘 上 不 相 邻 时 ， 或 某 块 落 人 “文件 铜 ”内 【参见 第 十 八 章 的 “文件 的 洞 ” 一 节 ) 
时 ， 或 一 个 块 缓冲 区 已 经 由 get_block 国 数 写 人 时 。 那 么 跳 到 第 11 步 ， 用 一 次 读 
一 块 的 方式 读 该 页 。 

如 果 函 数 运行 至 此 ,说明 页 中 的 所 有 块 在 磁盘 上 是 相 邻 的 。 然 而， 它 可 能 是 文件 
中 的 最 后 一 页 , 因此 页 中 的 一 些 块 可 能 在 磁盘 上 没有 映像 。 如果 这 样 的 话 , 它 将 页 
中 相应 的 块 缓冲 区 填 上 0; 如 果 不 是 这 样 , 它 将 页 描述 符 的 标志 PG_mappedtodisk 
置 位 。 


调用 bio_alloc() 分 配 包含 单一 段 的 一 个 新 bio 描 述 符 , 并 且 分 别 用 块 设 备 描 述 符 
地 址 和 页 中 第 一 个 块 的 逻辑 块 号 来 初始 化 bi_bdev 字 段 和 bi_sector 字段 。 这 两 
个 信息 已 在 上 面 的 第 3 步 中 得 到 。 

用 页 的 起 始 地 址 、 所 读数 据 的 首 字 节 偏 移 量 (0) 和 所 读 的 字 节 总 数 设置 bio 段 的 
bio_vec 描述 和 社 。 

将 mpage_ena_io_readft) 国 数 的 地 址 赋 给 bio->bi_ena_io 字 段 ( 见 下 面 )。 
调用 submit_bio()， 它 将 用 数据 传输 的 方向 设 定 bi_rw 标 志 ， 更 新 每 CPU 变量 
page_states 来 跟踪 所 读 遍 区 数 ,并 在 bio 描 述 符 上 调用 generic_make_reaquest 人 {) 
函数 (参见 第 十 四 章 的 “向 IO 调度 程序 发 出 请 求 ” 一 节 ) 。 

返回 0 (成 功 ) 。 

如 果 国 数 跳 至 这 里 ， 则 页 中 含有 的 块 在 磁盘 上 不 连续 。 如 果 页 是 最 新 的 
(PG_uptodate 置 位 )， 国 数 就 调用 unlock_page() 来 对 该 页 解锁 ， 否 则 调用 
block_read_full_page|) 用 一 次 读 一 块 的 方式 读 该 页 ( 见 下 面 )。 

返回 0 (成 功 )。 


函数 mpage_end_io_read() 是 bio 的 完成 方法 ,一旦 IO 数据 传输 结束 它 就 开始 执行 。 假 
定 没有 1/O 错误 , 该 函数 将 页 描述 符 的 标志 PG_uptodate 置 位 , 调用 unlock_page() 来 对 
该 页 解锁 并 唤醒 任何 因为 该 事件 而 睡眠 的 进程 ， 然 后 调用 bio_put () 来 清除 bio 描述 符 。 


670 第 十 六 章 





块 设备 文件 的 readpage 方法 

在 第 十 三 章 “ 设 备 文件 的 VFS 处 理 ” 一 节 和 第 十 四 章 的 “打开 块 设备 文件 ”一 节 中 , 我 
们 讨论 了 内 核 如 何 处 理 请 求 以 打开 块 设备 文件 。 我 们 还 看 到 init_special_inodqe() 国 
数 如 何 建立 设备 的 索引 节点 及 blkdev_open() 如 何 完 成 其 打开 阶段 。 


在 bdev 特殊 文件 系统 中 ， 块 设备 使 用 address_space 对 象 ， 该 对 象 存 放 在 对 应 块 设 备 
索引 节点 的 1 data 字 段 。 不 像 普 通 文 件 (在 address_space 对 象 中 它 的 readpage 方 
法 依赖 于 文件 所 局 的 文件 系统 的 类 型 ), 块 设备 文件 的 readpage 方 法 总 是 相同 的 。 它 是 
由 blkdev_readpage(}) 为 数 实现 的 ， 该 负数 调用 block_read_full_page|): 

int blkdevw readpage lstruct file * file, struct * page page) 

{ 


return block_ read full page page, blkdew get_block}): 
} 


正如 你 看 到 的 , 这 个 函数 又 是 一 个 封装 函数 , 这 里 是 block_read_full_page|() 函 数 的 
封装 国 数 。 这 一 次 , 第 二 个 参数 也 指向 一 个 函数 , 该 函数 把 相对 于 文件 开始 处 的 文件 块 
号 转换 为 相对 于 块 设备 开始 处 的 逻辑 块 号 。 不过， 对 于 块 设 备 文件 来 说 , 这 两 个 数 是 一 
致 的 ， 因此 ，blkaev_get_block() 国 数 执行 下 列 步 又 : 


1]. 检查 页 中 第 一 个 块 的 块 号 是 否 超过 块 设备 的 最 后 一 块 的 索引 值 (存放 在 bdev 
->bd_inode->i_size 中 的 块 设备 太 小 除 以 存放 在 bdev->bgd_block_size 中 的 块 大 
小 得 到 该 索 引 值 ; bdev 指向 块 设备 描述 符 )。 如 果 超 过 , 那么 对 于 写 操作 它 返 回 - 
EIO, 而 对 于 读 操 作 它 返回 0。( 超 出 块 设备 读 也 是 不 允许 的 , 但 不 返回 错误 代码 。 
内 核 可 以 对 块 设备 的 最 后 数据 试 着 发 出 读 请 求 , 而 得 到 的 缓冲 区 页 只 被 部 分 映射 )。 

2. ”设置 缓冲 区 首部 的 b_dev 字 段 为 b_dev，。 

3. 设置 缓冲 区 首部 的 D_blocknzr 字段 为 文件 块 号 ， 它 将 被 作为 参数 传 给 本 函数 。 

4. ”把 缓冲 区 首部 的 BH_Mapped 标 志 置 位 ， 以 表明 缓冲 区 首部 的 b_qev 和 PP blocknr 
字段 是 有 效 的 。 

国 数 block_read_full_page|() 以 一 次 读 一 块 的 方式 读 一 页 数据 。 正 如 我 们 已 看 到 的 ， 

当 读 块 设备 文件 和 磁盘 上 块 不 相 邻 的 普通 文件 时 都 使 用 该 函数 。 它 执行 如 下 步 又 : 

1. 检查 页 描述 符 的 标志 PG_private, 如果 置 位 , 则 该 页 与 描述 组 成 该 页 的 块 的 缓冲 
区 首部 链表 相关 (参见 第 十 五 章 的 “把 块 存放 在 页 高 速 缓存 中 ”一 节 )， 否则 ， 调 
用 create_empty_buffers() 来 为 该 页 所 含 所 有 块 缓 促 区 分 配 缓 冲 区 首部 ,页 中 第 


一 个 组 训 区 的 缓 促 区 首部 地 址 存放 在 page->private 字 段 中 。 每 个 缓 促 区 首部 的 
b_this_page 字段 指向 该 页 中 下 一 个 缓冲 区 的 缓冲 区 首部 。 
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证 了 : 


从 相对 于 页 的 文件 偏 称 量 (Page->index 字 段 ) 计算 出 页 中 第 一 块 的 文件 块 号 。 
对 该 页 中 每 个 缓冲 区 的 缓 钟 区 首部 ， 执 行 如 下 子 步骤 ; 
a. 如 果 标 志 BH_Uptodqate 置 位 ， 则 跳 过 该 缓冲 区 继续 处 理 该 页 的 下 一 个 缓冲 区 。 


b. 如 果 标 志 BH_Mapped 未 置 位 , 并 且 该 块 未 超出 文件 尾 , 则 调用 依赖 于 文件 系统 
的 get_block 函 数 , 该 函数 的 地 址 已 被 作为 参数 得 到 。 对 于 普通 文件 , 该 函数 
在 文件 系统 的 磁盘 数据 结构 中 查找 ,得 到 相对 于 磁盘 或 分 区 开始 处 的 缓冲 区 逻 
辑 块 号 。 对 于 块 设备 文件 , 不 同 的 是 该 函数 把 文件 块 号 当 作 逻辑 块 号 。 对 这 两 
种 情形 , 函数 都 将 逻辑 块 号 存放 在 相应 缓 训 区 首部 的 b_blocknr 字 段 中 , 并 将 
标志 BH_Mapped 置 位 ( 注 2)。 


c. 再 检查 标志 BH_Uptodate, 因 为 依赖 于 文件 系统 的 get_block 函 数 可 能 已 触发 
块 1/0 操 作 而 更 新 了 缓冲 区 。 如 果 BH_Uptodate 置 位 ， 则 继续 处 理 该 页 的 下 一 
个 缓冲 区 。 


d. 将 缓冲 区 首部 的 地 址 存放 在 局 部 数组 arr 中 ， 继 续 该 页 的 下 一 个 缓 溃 区 。 

假如 上 一 步 中 没 遇 到 “文件 凋 ”， 则 将 该 页 的 标志 PG_mappedtodisk 置 位 。 

现在 局 部 变量 arr 中 存放 了 一 些 缓冲 区 首部 的 地 址 ,与 其 对 应 的 缓 促 区 的 内 容 不 是 

最 新 的 。 如 果 数 组 为 空 , 那么 页 中 的 所 有 缓冲 区 都 是 有 效 的 , 因此 , 该 函数 设置 页 

描述 符 的 PE_uptcdate 标 志 ， 调 用 unlock_page() 对 该 页 解锁 并 返回 。 

局 部 数组 arr 非 空 。 对 数组 中 的 每 个 缓 种 区 首部 , block_read_full_page|() 执 行 

下 列子 步骤 

a， 将 BH_Lock 标志 置 位 。 访 标志 一 旦 置 位 ， 国 数 将 一 直 等 到 该 缓冲 区 释放 。 

b. 将 缓冲 区 首部 的 P_end_io 字段 设 为 enda_pbuffer_async_readf() 国 数 的 地 址 
( 见 下面 )， 并 将 缓冲 区 首部 的 BH_Async_Read 标 志 置 位 。 

对 局 部 数组 arr 中 的 每 个 缓冲 区 首部 调用 submit_bh(), 将 操作 类 型 设 为 READ。 

就 像 我 们 在 前 面 看 到 的 那样 ， 该 函数 触发 了 相应 块 的 IO 数据 传输 。 

返回 0。 


访问 普通 文件 时 ， 如 果 一 个 数据 块 处 于 “文件 洞 ” 中 ，get_block 男 数 就 可 能 找 不 到 这 
个 块 ( 泰 见 第 十 八 章 “ 文 件 的 洞 ” 一 节 )。 此 时 , 通 数 用 0 填充 这 个 块 竣 冲 区 并 设置 绽 冲 
区 首部 的 BH_Uptodate 标志 。 


638 第 十 六 章 


冰 数 end_buffer_async_read() 是 缓 促 区 首部 的 完成 方法 。 对 块 缓冲 区 的 /0 数据 传输 
一 结束 ， 它 就 执行 。 假 定 没 有 LO 错误， 函数 将 缓冲 区 首部 的 BH_Uptodate 标 志 置 位 而 
将 BH_Async_Read 标 志清 0。 那 么 ， 函 数 就 得 到 包含 块 缓 神 区 的 缓冲 区 页 描述 符 ( 它 的 
地 址 存放 在 缓冲 区 首部 的 b_page 字 段 中 ), 同时 检查 是 否 页 中 所 有 块 是 最 新 的 ; 如 果 是 ， 
国 数 将 该 页 的 PG_uptodate 标 志 置 位 并 调用 unlock_page()。 


文件 的 预 读 

很 多 磁盘 的 访问 都 是 顺序 的 。 我们 在 第 十 八 章 会 看 到 , 普通 文件 以 相 邻 扇 区 成 组 存放 在 
磁盘 上 ,， 因 此 很 少 移动 磁头 就 可 以 快速 检索 到 文件 。 当 程序 读 或 拷贝 一 个 文件 时 ， 它 通 
第 从 第 一 个 字 刷 到 最 后 一 个 字 节 顺序 地 访问 文件 。 因 此 , 在 处 理 进程 对 同一 文件 的 一 系 
列 读 请 求 时 ， 可 以 从 磁盘 上 很 多 相 邻 的 扇 区 读 取 。 


预 读 (read-ahead) 是 一 种 技术 ， 这 种 技术 在 于 在 实际 请 求 前 读 普 通 文 件 或 块 设备 文件 
的 几 个 相 邻 的 数据 页 。 在 大 多 数 情况 下 , 预 读 能 极 大 地 提高 磁盘 的 性 能 ， 因 为 预 读 使 磁 
盘 控 制 器 处 理 较 少 的 命令 ， 其 中 的 每 条 命令 都 涉及 一 大 组 相 邻 的 扇 区 。 此 外 ， 预 读 还 能 
提高 系统 的 响应 能 力 。 顺序 读 取 文件 的 进程 通常 不 需要 等 待 请 求 的 数据 , 因为 请 求 的 数 
据 已 经 在 RAM 中 了 。 


但 是 ， 预 读 对 于 随机 访问 的 文件 是 没有 用 的 ; 在 这 种 情况 下 ， 预 读 实 际 上 是 有 害 的 ， 因 
为 它 用 无 用 的 信息 浪费 了 页 高 速 缓存 的 空间 。 因 此 ， 当 内 核 确定 出 最 近 所 进行 的 LO 访 
回 与 前 一 次 IO 访问 不 是 顺序 的 时 就 减少 或 停止 预 读 。 


文件 的 预 读 需要 更 复杂 的 算法 ， 这 是 由 于 以 下 几 个 原因 : 

。 “由 于 数据 是 逐 页 进行 读 取 的 , 因此 预 读 算法 不 必 考 虑 页 内 偏 移 量 , 只 要 考虑 所 访问 
的 页 在 文件 内 部 的 位 置 就 可 以 了 。 

*。 “只 要 进程 持续 地 顺序 访问 一 个 文件 ， 预 读 就 会 逐渐 增加 。 

*。 ”当前 的 访问 与 上 一 次 访问 不 是 顺序 的 时 (随机 访问 ), 预 读 就 会 逐 浙 减少 乃至 禁止 。 


。 ” 当 一 个 进程 重复 地 访问 同一 页 ( 即 只 使 用 文件 的 很 小 一 部 分 ) 时 , 或 者 当 几 乎 所 有 
的 页 都 已 在 页 高 速 缓存 内 时 ， 预 读 就 必须 停止 。 
。 ”低级 IO 设备 驱动 程序 必须 在 合适 的 时 候 沿 活 ,， 这样 当 将 来 进程 需要 时 ， 页 已 传送 


完毕 。 


如 果 请 求 的 第 一 页 紧 跟 上 次 访问 所 请 求 的 最 后 一 页 , 那么 相对 于 上 次 的 文件 访问 , 内 核 
把 文件 的 这 次 访问 看 作 是 顺序 的 。 
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当 访 问 给 定 文件 时 ，, 预 读 算法 使 用 两 个 页 面 集 , 各 自 对 应 文件 的 一 个 连续 区 域 。 这 两 个 
页 面 集 分 别 叫 做 当前 窗 (current window) 和 预 读 窗 (ahead window) 。 


当前 窗 内 的 页 是 进程 请 求 的 页 和 内 核 预 读 的 页 , 且 位 于 页 高 速 缓存 内 (当前 窗 内 的 页 不 
必 是 最 新 的 ， 因 为 WO 数据 传输 仍 可 能 在 运行 中 ) 。 当 前 窗 包含 进程 顺序 访问 的 最 后 一 
页 ， 且 可 能 有 内 核 预 读 但 进程 未 请 求 的 页 。 


预 读 窗 内 的 页 紧 接 着 当前 窗 内 的 页 , 它们 是 内 核 正 在 预 读 的 页 。 预 读 窗 内 的 页 都 不 是 进 
程 请 求 的 , 但 内 核 假定 进程 会 迟早 请 求 。 


当 内 核 认 为 是 顺序 访问 而 且 第 一 页 在 当前 窗 内 时 , 它 就 检查 是 否 建立 了 预 读 窗 。 如 果 没 
有 ， 内核 创建 一 个 预 读 窗 并 触发 相应 页 的 读 操作 。 理想 情况 下 , 进程 继续 从 当前 窗 请 求 
页 , 同时 预 读 窗 的 页 则 正在 传送 。 当 进程 请 求 的 页 在 预 读 窗 , 那么 预 读 窗 就 成 为 当前 窗 。 


预 读 算法 使 用 的 主要 数据 结构 是 file_ra_state 描 述 符 , 它 的 字段 见 表 16-3。 每 个 文件 
对 和 象 在 它 的 f_ra 字段 中 存放 这 样 的 一 个 描述 符 。 


表 16-3: file_ra_state 描述 符 的 字段 


类 型 字段 说 明 

unsigned long start 当前 窗 内 第 一 页 的 索引 

unsigned long size 当前 窗 内 的 页 数 ( 当 临时 禁止 预 读 时 为 一 1, 0 表示 当 
前 窗 空 ) 

unsigned long flags 控制 预 读 的 一 些 标志 

unsigned long cache_hit 连续 高 速 缓 存 命 中 数 ( 进 程 请 求 的 页 同时 又 在 页 高 速 
缓存 内 ) 


unsigned long prev_page 进程 请 求 的 最 后 一 页 的 索引 

unsigned long ahneaqd _start 预 读 窗 内 第 一 页 的 索引 

unsigned long ahead_size ” 预 读 窗 的 页 数 (0 表示 预 读 窗口 空 ) 
unsigned long ra_pages 预 读 窗 的 最 大 页 数 (0 表示 预 读 窗 永久 禁止 ) 
unsigned long mmap_hit 预 读 命中 计数 器 (用 于 内 存 映射 文件 ) 
unsigned long mmap_miss 预 读 失 败 计数 器 (用 于 内 存 上 映射 文件 ) 


当 一 个 文件 被 打开 时 , 在 它 的 file_ra_state 描 述 符 中 , 除了 prev_page 和 ra_pages 
这 两 个 字段 ， 其 他 的 所 有 字段 都 置 为 0。 


prev_page 字 段 存放 着 进程 在 上 一 次 读 操 作 中 所 请 求 页 的 最 后 一 页 的 索引 。 它 的 初 值 是 -1， 


加 


ra_pages 字 段 表示 当前 窗 的 最 大 页 数 , 即 对 该 文件 允许 的 最 大 预 读 量 。 该 字段 的 初始 值 
( 缺 省 值 ) 存放 在 该 文件 所 在 块 设 备 的 backing_dev_info 描 述 符 中 (参见 第 十 四 章 的 
“请 求 队列 描述 符 ” 一 节 )。 一 个 应 用 可 以 修改 一 个 打开 文件 的 ra_pages 字段 从 而 调整 
预 读 算法 : 具体 的 实现 方法 是 调用 posix_fadviset{) 系统 调 用 ， 并 传 给 它 命令 
FOSIX_FADV_NORMAL( 设 最 大 预 读 量 为 缺 省 值 ,通常 是 32 页 ) 、.POSIX_FRADV_SEOUENTIRAL 
( 设 最 大 预 读 量 为 缺 省 值 的 两 倍 ) 和 POSIX_FADV_RANDOM (最 大 预 读 量 为 0， 从 而 永 
和 禁止 预 读 )。 


flags 字 7 段 内 有 两 个 重要 的 字段 RA_FLAG_MISS 和 RA_FLAG_INCACHE。 如 果 已 被 预 读 的 
页 不 在 页 高 速 缓存 内 (可 能 的 原因 是 内 核 为 了 释放 内 存 而 加 以 收回 了 , 参见 第 十 七 章 )， 
则 第 一 个 标志 置 位 , 这 时 候 下 一 个 要 创建 的 预 读 窗 大 小 将 被 缩小 。 当 内 核 确定 进程 请 求 
的 最 后 256 页 都 在 页 高 速 缓存 内 时 (连续 高 速 缓存 命中 数 存 放 在 ra->cache_hit 字段 
中 )， 第 二 个 标志 置 位 ， 这 时 内 核 认为 所 有 的 页 都 已 在 页 高 速 缓存 内 ， 进 而 关闭 预 读 。 


何 时 执行 预 读 算法 ? 这 有 下 列 几 种 情形 ; 


» 当 肉 核 用 用 户 杰 请 求 来 读 文 件数 据 的 页 时 。 这 一 事件 触发 page_cache_ 
reaaaheadal( ) 国 数 的 调用 (参见 本 章 前 面 “从 文件 中 读 取 数据 ”一 节 有 关 
do_generic_file_read{(}) 描 述 的 第 4c 步 )，。 

. 当 内 核 为 文件 内 存 映射 分 配 一 页 时 (参见 本 章 后 面 “ 内 存 映射 的 请 求 调 页 ”一 节 中 
的 filemap_nopage() 函数 ， 它 再 次 调用 page_cache_readqdaheada1{ ) 国 数 )。 

。 ” 当 用 户 态 应 用 执行 readahead{) 系 统 调用 时 ， 它 会 对 某 个 文件 描述 符 显 式 触 发 某 
预 读 活 动 。 

. 当 用 户 态 应 用 使 用 FOSIX_FADV_NOREUSE 或 POSIX_FADV_WILLNEED 命令 执行 
posix_fadvise() 系 统 调 用 时 , 它 会 通知 内 核 , 基 个 范围 的 文件 页 不 久 将 要 被 访问 。 

*。 ” 当 用 户 态 应 用 使 用 MADV_WILLNEED 命 令 执行 madvise() 系 统 调 用 时 ， 它 会 通知 内 
核 ， 某 个 文件 内 存 映射 区 域 中 的 给 定 范 围 的 文件 页 不 久 将 要 被 访问 。 


page_cache_readahead() 函数 


page_cache_readahead () 函数 处 理 设 有 被 特殊 系统 调用 显 式 触发 的 所 有 预 读 操作 。 它 
填写 当前 窗 和 预 读 窗 , 根据 预 读 命中 数 更 新 当前 窗 和 预 读 窗 的 大 小 , 也 就 是 根据 过 去 对 
文件 访问 预 读 策略 的 成 功 程度 来 调整 。 


当 内 核 必须 满足 对 某 个 文件 一 页 或 多 页 的 读 请 求 时 , 函数 就 被 调用 , 该 函数 有 下 面 五 个 
参数 : 


仿 问 式 件 641 


mapping 

描述 页 所 有 者 的 address_space 对 象 指 针 
ra 

包含 该 页 的 文件 file_ra_state 描述 符 指 针 
filp 

文件 对 象 地 址 


Offset 


文件 内 页 的 偏 移 量 
req_slze 


要 完成 当前 读 操作 还 需要 读 的 页 数 ( 注 3) 


图 16-1 是 page_cache_readahead() 的 流程 图 。 该 函数 基本 上 作用 于 file ra_state 
描述 符 的 字段 ,， 因此， 尽管 廊 程 图 中 的 行为 描述 不 很 正规 , 你 还 是 能 很 容易 地 确定 函数 
执行 的 实际 步骤 。 例 如 ， 为 了 检查 请 求 页 是 否 与 刚 读 的 页 相同， 函数 检查 rr a - 
>prev_page 字段 的 值 和 offset 参数 的 值 是 否 一 致 ( 见 前 面 的 表 16-3) 。 


当 进 程 第 一 次 访问 一 个 文件 , 并 且 其 第 一 个 请 求 页 是 文件 中 偏 移 量 为 0 的 页 时 ， 函数 假 
定 进程 要 进行 顺序 访问 。 那么 , 尔 数 从 第 一 页 创建 一 个 新 的 当前 窗 。 初 始 当 前 窗 的 长 度 
(总 是 为 2 的 恩 ) 与 进程 第 一 个 读 操 作 所 请 求 的 页 数 有 一 定 的 联系 。 请 求 页 数 越 大 , 当前 
窗 越 大 ， 一 直到 最 大 值 ， 最 大 值 存放 在 ra->ra_pages 字段 。 反 之 ， 当 进程 第 一 次 访问 
文件 ， 但 其 第 一 个 请 求 页 在 文件 中 的 偏 移 量 丰 为 0 时 ， 国 数 假定 进程 不 是 执行 顺序 读 。 
那么 , 函数 暂时 禁止 预 读 (ra->size 字 段 设 为 -1)。 但 是 当 预 读 暂 时 被 禁止 而 国 数 又 认 
为 需要 顺序 访问 时 ， 将 建立 一 个 新 的 当前 窗 。 


如 果 预 读 窗 不 存在 ， 一 旦 国 数 认为 在 当前 窗 内 进程 执行 了 顺序 读 ， 则 预 读 窗 将 被 建立 。 
预 读 窗 总 是 从 当前 窗 的 最 后 一 页 开始 。 但 它 的 长 度 与 当前 窗 的 长 诬 相 关 : 如 果 
RA_FLAG_MISS 标 志 置 位 ， 则 预 读 窗 长 度 是 当前 窗 长 度 减 2， 小 于 4 时 设 为 4， 否 则 ， 
预 读 窗 长 度 是 当前 窗 长 度 的 4 倍 或 2 倍 。 如 果 进 程 继 续 顺序 访问 文件 ， 最 终 预 读 窗 成 为 
新 的 当前 窗 ， 新 的 预 读 窗 被 创建 。 这 样 ， 随 着 进程 顺序 地 读 文 件 ， 预 读 会 大 大 地 增强 。 


注 3: 实际 上 ， 如 果 读 操作 要 读 的 页 数 太 于 预 读 窗 的 最 大 尺寸 ， 就 会 多 次 调用 page_cache_ 
readahead{) 丁 数 。 因 此 ，req_size 大 数 可 能 比 完 成 读 择 作 还 需要 读 的 页 数 小 ， 


042 


设 定 当前 窗 ， 按 照 请 求 | 


的 页 号 数 确定 其 起 始 请 


求 页 及 长 度 。 对 当前 窗 
进行 V0 操作 ， 





最 后 所 请 求 的 全 部 
256 页 是 否 都 已 在 页 
高 速 缓存 内 ? 


复位 当前 窗 和 预 读 窗 ， 将 文 量 
件 标 记 为 已 在 高 速 缓存 内 。 虹 








16-1:， 画 数 page_cache_readahead() 的 流程 图 


已 永久 禁止 巴 
读 或 者 文件 已 


与 上 次 调用 所 访问 的 是 
同一 文件 且 只 请 求 一 页 ? 


所 请 求 的 首页 就 在 上 次 


| 随机 访问 、 复 位 当前 窗 和 预 
| 读 窗 ， 开 始 对 请 求 页 进行 
WO 操作， 


最 后 所 请 求 的 全 部 256 
页 是 否 都 已 在 页 高 速 缓 轴 


请 求 的 末 页 后 面 (顺序 - 存 内 ? 


访问 } ? 


YES 


复位 当前 窗 和 预 读 窗 ， 将 文 由 
忻 标记 为 已 在 高 速 缓存 内 。 峡 


| 在 当前 宣 后 面 创建 一 个 新 的 
预 读 窗 ， 开 始 对 预 读 鹤 进行 和 
10 操 作 。 


最 后 所 请 求 的 全 部 \\\ 
256 页 是 否 都 已 在 页 高 





束 绥 存 内 ? 


用 预 读 窗 取代 当前 窗口 。 再 创建 
一 个 新 的 预 读 窗 。 对 该 新 预 读 窗 
进行 0 操作 ， 


最 后 所 请 求 的 全 部 
256 页 是 否 都 已 在 页 高 
过 组 存 内 ? 


请 求 页 数 大 于 当前 | 在 当前 窗 后 面 创建 一 个 新 的 
项 读 窗 ， 对 预 滨 窗 进行 0 
窗 的 最 大 值 。 由 “| af 





访问 文件 043 


一 旦 函数 认识 到 对 文件 的 访问 相对 于 上 一 次 不 是 顺序 的 , 当前 窗 与 预 读 窗 就 被 清空 , 预 
读 被 暂时 禁止 。 当 进程 的 读 操 作 相 对 于 上 一 次 文件 访问 为 顺序 时 , 预 读 将 重新 开始 。 


每 次 Page_cache_readahead1() 创 建 一 个 新 窗 ， 它 就 开始 对 所 包含 页 的 读 操 作 。 为 了 读 
一 大 组 页 , 国 数 page_cache_readqahead() 调 用 blockaple_page_cache_readahead1() 。 


为 减少 内 核 开销 ， 后 面 这 个 函数 采用 下 面 灵活 的 方法 :; 

。 ”如 果 服 务 于 块 设备 的 请 求 队列 是 读 拥塞 的 ， 就 不 进行 读 操作 ，。 

， ”将 要 读 的 页 与 页 高 速 缓 存 进行 比较 ， 如 果 访 页 已 在 页 高 速 缓 存 肉 ， 跳 过 即 可 。 

。 ”在 从 磁盘 进行 读 之 前 , 读 请 求 所 需 的 全 部 页 框 是 一 次 性 分 配 的 。 如果 不 能 一 次 性 得 
到 全 部 页 框 , 预 读 操 作 就 只 在 可 以 得 到 的 页 上 进行 。 而且 把 预 读 推迟 至 所 有 页 框 都 
得 到 时 再 进行 并 没有 多 大 意义 。 

s 只 要 可 能 , 通过 使 用 多 段 bio 描述 符 向 通用 块 层 发 出 读 操作 (参见 第 十 四 章 “ 段 ” 
一 节 )。 这 通过 address_space 对 象 专 用 的 readpages 方 法 实现 (假如 已 定 浆 ); 如 
果 没 有 定义 , 就 通过 反复 调用 reaGpage 方 法 来 实现 。readpage 方 法 在 前 面 " 从 文 
件 中 读 取 数据 "一 节 中 对 于 单 段 情形 有 详细 描述 , 但 稍 作 修改 就 可 以 很 容易 地 将 它 
用 于 多 段 情形 。 


handle_ra_miss() 函数 


在 某 些 情况 下 , 预 读 策略 似乎 不 是 十 分 有 效 , 内 核 就 必须 修正 预 读 参 数 。 让 我 们 考虑 本 章 
前 面 “从 文件 中 读 取 数据 ”一 节 中 描述 的 do_generic_file_read|() 函 数 。 在 第 4c 步 中 
调用 函数 page_cache_readahead()。 图 16-1 中 展示 了 两 种 情形 : 请 求 页 在 当前 窗 或 预 读 
窗 表明 它 已 经 被 预先 读 入 了 ,或 者 还 没有 , 则 调用 blockable_page_cache_readahead 1{) 
来 读 入 。 在 这 两 种 情形 下 ， 函 数 do_generic_file_read{) 应 该 在 第 4d 步 中 就 在 页 高 速 
缓存 中 找到 了 该 页 , 如 果 没 有 , 就 表示 该 页 框 已 被 收回 算法 从 高 速 缓存 中 删除 。 在 这 种 情 
形 下 ，do_generic_file_read() 调 用 handle_ra_miss() 国 数 ， 这 个 国 数 会 通过 将 
RA_FLAG_MISS 标 志 置 位 与 RA_FLAG_INCACHE 标 志清 0 来 调整 预 读 算法 ， 


与 入 文件 


回想 一 下 , write() 系 统 调用 涉及 把 数据 从 调用 进程 的 用 户 态 地 址 空间 中 移动 到 内 核 数 
据 结构 中 , 然后 再 移动 到 磁盘 上 。 文件 对 象 的 write 方法 允许 每 种 文件 类 型 都 定义 一 个 
专用 的 写 操作 。 在 Linux 2.6 中 ， 每 个 磁盘 文件 系统 的 write 方法 都 是 一 个 过 程 ， 该 过 
程 主 要 标识 写 操作 所 涉及 的 磁盘 块 ,把 数据 从 用 户 态 地 址 空间 拷贝 到 页 高 速 缓 存 的 某 些 
页 中 ， 然 后 把 这 些 页 中 的 缓冲 区 标记 成 脏 。 


许多 文件 系统 (包括 Ext2 或 JFS) 通过 generic_file_write() 硼 数 来 实现 文件 对 象 的 write 
方法 。 它 有 如 下 参数 : 


file 
文件 对 象 指针 
buf 
用 户 态 地 址 空间 中 的 地 址 ， 必 须 从 这 个 地 址 获取 要 写 人 文件 的 字符 
count 
要 写 人 的 字符 个 数 
PPOos 


存放 文件 偏 移 量 的 变量 地 址 ， 必 须 从 这 个 偏 移 量 处 开始 写 人 
该 函数 执行 以 下 操作 


1， 初始 化 iovec 类 型 的 一 个 局 部 变量 , 它 包 含 用 户 态 缓冲 区 的 地 址 与 长 度 (参见 本 章 
前 面 “ 从 文件 读 取 数据 ”一 节 中 对 generic_file_readl() 国 数 的 描述 ) 。 


2.、 ”确定 所 写 文件 索引 节点 对 象 的 地 址 inodae (file->f_mapping->host) 和 获得 信号 
量 (inode->i_sem)。 有 了 这 个 信和 号 量 , 一 次 只 能 有 一 个 进程 对 某 个 文件 发 出 
write() 系 统 调用 。 

3. ”调用 宏 init_sync_kiocb 初 始 化 kiocb 类 型 的 局 部 变量 。 就 像 本 章 前 面 “ 从 文件 
读 取 数据 ”一 节 中 描述 的 那样 ， 读 宕 将 ki_key 字段 设置 为 KIOCB_SYNC_KEY ( 同 
步 1/O 操作 )、ki_filp 字 段 设置 为 filp、ki_opbj 字段 设置 为 current。 


4. 调用 __generic file aio write _nolockf() 国 数 ( 见 下 面 ) 将 涉及 的 页 标记 为 
脏 ， 并 传递 相应 的 参数 ， iovec 和 Kioccb 类 型 的 局 部 变量 地 址 、 用 户 态 缓 冲 区 的 
段 数 (这 里 只 有 一 个 ) 和 ppos。 

5. 释放 ijnode->i_sem 信 号 量 。 


6， 检查 文件 的 O_SsYNC 标 志 、 索 引 节 点 的 S_SYNC 标志 及 超级 块 的 MS_SYNCHRONOUS 
标志 。 如 果 至 少 一 个 标志 置 位 ， 则 调用 函数 sync_page_range() 来 强制 内 核 将 页 
高 速 缓存 中 第 4 步 涉及 的 所 有 页 刷新 ,阻塞 当前 进程 直到 IO 数据 传输 结束 。 然 后 
依次 地 ，sync_page_range1() 先 执行 address_space 对 象 的 writepages 方 法 (如 
果 有 定义 ) 或 mpage_writepages () 国 数 来 开始 这 些 脏 页 的 IO 传输 (参见 本 章 后 
面 “ 将 脏 页 写 到 磁盘 ”一 节 ), 然后 调用 generic_osync_inodqe () 将 索引 节点 和 相 
关 的 缓冲 区 刷新 到 磁盘 , 最 后 调用 wait_on_page_bit() 挂 起 当前 进程 一 直到 全 部 
所 刷新 页 的 PG_writeback 标 志清 0。 


芒 问 文件 645 


让 特 ”_generic file aio write _nolock() 国 数 的 返回 值 返 回 ， 通 常 是 写 人 的 有 
效 字 节 数 。 


函数 __generic_file aio_write_nolock() 接 收 四 个 参数 ; kiocb 描 述 符 的 地 址 iocb、 
iovec 描 述 符 数 组 的 地 址 iov, 该 数组 的 长 度 以 及 存放 文件 当前 指针 的 变量 的 地 址 ppos。 
当 被 generic_file_writel) 调 用 时 ，iovec 反 述 符 数 组 只 有 一 个 元 素 , 该 元 素 摘 述 待 
写 数 据 的 用 户 态 缓冲 区 ( 注 4)。 


我 们 现在 来 解释 _、_generic_file_aio_write_nolock1() 国 数 的 行为 。 为 简单 起 见 , 我 
们 只 讨论 最 草 见 的 情形 ， 即 对 有 页 高 速 缓存 的 文件 进行 writef) 系 统 调用 的 一 般 情 况 。 
我 们 在 本 章 后 面 会 讨论 读 国 数 在 其 他 情况 下 的 行为 。 我 们 不 讨论 如 何 处 理 错误 和 蜡 常 条 
件 。 


该 函数 执行 如 下 步骤 : 


1. 调用 access_ok() 确 定 iovec 摘 述 符 所 描述 的 用 户 态 缓冲 区 是 有 效 的 (起 始 地 址 
和 长 度 已 从 服务 例 程 sys_write() 得 到 ， 因 此 使 用 前 必须 对 其 检查 。 参 见 第 十 章 
“验证 参数 ”一 节 )。 如 果 参 数 无 效 ， 则 返回 错误 -EFAULT。 


2. ”确定 待 写 文件 (file->f_mapping->host) 索引 节点 对 象 的 地 址 inode。 记 住 : 如 
果 文 件 是 一 个 块 设备 文件 ， 这 就 是 一 个 bdev 特殊 文件 系统 的 索引 节点 (参见 第 十 
四 章 )。 

: 将 文件 (file->f_mapping->backing_dev_info) 的 backing_dev_info 拱 述 符 
的 地 址 设 为 current->backing_dev_info。 实际 上 , 即使 相应 请 求 队列 是 拥塞 的 ， 
这 个 设置 也 会 允许 当前 进程 写 回 由 file->f_mapping 拥 有 的 脏 页 (参见 第 十 七 章 )。 


4. 如果 file->flags 的 0_APPEND 标 志和 置 位 而 且 文 件 是 普通 文件 ( 非 块 设备 文件 )， 
它 将 *ppos 设 为 文件 尾 ， 从 而 新 数据 将 都 追加 到 文件 的 后 面 。 


5. ”对 文件 大 小 进行 几 次 检查 ,比如 , 写 操作 不 能 把 一 个 普通 文件 增 大 到 超过 每 用 户 的 上 
限 或 文件 系统 的 上 限 , 每 用 户 上 限 存放 在 current->signal->rlim[RLIMIT_FSIZE] 
(参见 第 三 章 “ 进 程 资 源 限 制 ”一 节 ) ， 文 件 系统 上 限 存 放 在 inodae->i_sb-> 
s_maxbytes。 另 外 , 如 果 文 件 不 是 “大 型 文件 ”( 当 file->f_flags 的 O_LRARGEFILE 
标志 清 0 时 )， 那 么 它 的 太 小 不 能 超出 2GB。 如 果 没 有 设 定 所 述 限制 ， 它 就 减少 待 写 
字 市 数 。 


一 -一 一 一 一 一 


注 4: 系统 调用 write() 的 一 个 叫做 writev() 的 变 体 万 许 应 用 程序 定义 多 个 用 户 态 妆 冲 区 ,从 
中 可 以 获取 特写 和 八 文件 的 数据 。 冰 数 generic_file aio write_nolockf) 也 具有 这 种 
功能 。 下面 我 们 假设 将 从 一 个 用 户 甸 冲 区 取 数 据 ， 不 过 我 们 可 以 想象 ， 使 用 多 个 冲 区 
虽然 苘 单 ， 但 需要 执行 更 多 的 步骤 ， 


如 果 设 定 ， 则 将 文件 的 suia 标 志清 0, 而 且 如 果 是 可 执行 文件 的 话 就 将 sgia 标 志 
也 清 0 (参见 第 一 章 “ 访 问 权 限 和 文件 模式 ”一 节 )。 我们 并 不 要 用 户 能 修改 setuia 
文件 。 

将 当前 时 间 存 帮 在 inode->mtime 字段 (文件 写 操作 的 最 新 时 间 ) 中 ， 也 存放 在 
inode->ctime 字 7 段 (修改 索引 节点 的 最 新 时 间 ) 中 ,而 且 将 索引 节点 对 象 标记 为 脏 。 
开始 循环 以 更 新 写 操作 中 涉及 的 所 有 文件 页 。 在 每 次 循环 期 间 ， 执 行 下 列子 步骤 : 


a. 


调用 fina_lock_page() 在 页 高 速 缓存 中 搜索 该 页 (参见 第 十 五 章 “页 高 速 缓 
存 的 处 理 国 数 "一 节 )。 如 果 国 数 找到 了 该 页 , 则 增加 引用 计数 并 将 PG_locked 
标志 置 位 。 


如 果 访 页 不 在 页 高 速 缓存 中 , 则 分 配 一 个 新 页 框 并 调用 aaaq_to_page_cache () 
在 页 高 速 缓存 内 插入 此 页 。 正 如 第 十 五 章 “ 页 高 速 缓存 的 处 理 函 数 ” 一 节 所 述 
的 那样 , 这 个 函数 也 会 增加 引用 计数 并 将 PFG_locked 标 志 置 位 。 男 外 函数 还 在 
内 存 管理 区 的 非 活 动 链表 中 插入 一 页 (参见 第 十 七 章 )。 


调用 索引 节点 (file 一 f-mapping) 中 address_space 对 和 象 的 prepare write 
方法 。 对 应 的 国 数 会 为 该 页 分 配 和 初始 化 缓冲 区 首部 。 我 们 在 后 面 的 章节 中 再 
讨论 该 函数 对 于 普通 文件 和 块 设 备 文件 做 些 什么 。 


如 果 缓 冲 区 在 高 端 内 存 中 ， 则 建立 用 户 态 缓冲 区 的 内 核 映 射 (参见 第 八 章 的 
“高 端 内 存 页 框 的 内 核 映 射 ” 一 节 ), 然后 它 调用 _ _copy_from_user() 把 用 户 
访 缓 冲 区 中 的 字符 拷贝 到 页 中 ， 并 且 释 放 内 核 映 射 。 


调用 索引 节点 (file 一 f-mapping) 中 address_space 对 和 象 的 commit_write 
方法 。 对 应 的 函数 把 基础 缓冲 区 标记 为 脏 , 以 便 随后 把 它们 写 到 磁盘 。 我们 在 
后 面 两 节 讨 论 该 函数 对 于 普通 文件 和 块 设备 文件 做 些 什么 。 


调用 unlock_page() 清 PG_lockea 标 志 ， 并 唤醒 等 待 该 页 的 任何 进程 。 


调用 mark_page_accessed() 来 为 内 存 回 收 算法 更 新 页 状态 [参见 第 十 七 章 
“最 近 最 少 使 用 (LRU) 链表 ”一 节 ] 。 


减少 页 引用 计数 来 撤销 第 8a 或 8b 步 中 的 增加 值 。 


在 这 一 步 ,还 有 另 一 页 被 标记 为 脏 , 它 检查 页 高 速 缓存 中 脏 页 比例 是 否 超过 一 个 
固定 的 阐 值 (通常 为 系统 中 页 的 40%)。 如果 这 样 , 则 调用 writeback_inodes () 
来 刷新 几 十 页 到 磁盘 (参见 第 十 五 章 的 “搜索 要 刷新 的 脏 页 ”一 节 )。 
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j， 调用 cond_resched() 来 检查 当前 进程 的 TIF_NEED_RESCHED 标 志 。 如 果 访 标 
志 置 位 ， 则 调用 schedule () 函数 ，。 


9. ”现在 , 在 写 操作 中 所 涉及 的 文件 的 所 有 页 都 已 处 理 。 更 新 *ppos 的 值 , 让 它 正 好 指 
向 最 后 一 个 被 写 人 的 字符 之 后 的 位 置 。 


10. 设置 current->backing_dev_info 为 NULL (和 参见 第 3 步 )。 
11. 返回 写 人 文件 的 有 效 字符 数 后 结束 。 


普通 文件 的 prepare_write 和 commit_write 方法 

address_space 对 象 的 prepare_write 和 commit_write 方 法 专用 于 由 generic_ 
file_write() 实 现 的 通用 写 操作 ， 这 个 函数 适用 于 普通 文件 和 块 设备 文件 。 对 文件 的 
受 写 操作 影响 的 每 一 页 ， 调 用 一 次 这 两 个 方法 。 


每 个 磁盘 文件 系统 都 定义 了 自己 的 prepare_write 方 法 。 与 读 操 作 类 似 , 这 个 方法 只 不 
过 是 普通 函数 的 一 个 封装 函数 。 例 如, Ext2 文 件 系 统 通 过 下 列 消 数 实现 prepare_write 
方法 : 

int ext2 prepare write(struct file *file, struct page *page, unsigned 

from, unsigned to) 

上 


retuyurn block prepare writelpage, from, to, ext2_ get_block):; 
} 


在 前 面 “从 文件 读 取 数据 ”一 节 已 经 提 到 ext2_get_block() 国 数 ; 它 把 相对 于 文件 的 
块 号 转换 为 逻辑 块 号 (表示 数据 在 物理 块 设 备 上 的 位 置 )。 


block_prepare_writel() 国 数 通过 执行 下 列 步骤 为 文件 页 的 缓冲 区 和 缓冲 区 首部 做 准备 


1. 检查 某 页 是 否 是 一 个 缓冲 区 页 (如 果 是 则 PG_Private 标 志 置 位 )， 如 果 读 标志 清 
0,， 则 调用 create_empty_buffers() 为 页 中 所 有 的 缓冲 区 分 配 缓冲 区 首部 (参见 
第 十 五 章 “ 绥 神 区 页 ”一 节 )。 


2. ”对 与 页 中 包含 的 缓 促 区 对 应 的 每 个 缓冲 区 首部 ， 及 受 写 操作 影响 的 每 个 缓冲 区 首 
部 ， 执行 下 列 操作 : 


a. 如 果 BH_New 标志 置 位 ， 则 将 它 清 0 (参见 下 面 )。 
b. 如 果 BH_New 标志 已 清 0， 则 国 数 执行 下 列子 步骤 ; 


(1) 调用 依赖 于 文件 系统 的 国 数 , 该 函数 的 地 址 get_block 以 参数 形式 传递 过 
来 。 查 看 这 个 文件 系统 磁盘 数据 结构 并 查找 缓 神 区 的 逻辑 块 号 (相对 于 磁 
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盘 分 区 的 起 始 位 置 而 不 是 普通 文件 的 起 始 位 置 ) ,与 文件 系统 相关 的 函数 把 
这 个 数 存放 在 对 应 缓冲 区 首部 的 b_blocknr 字 段 ,并 设置 它 的 BH_Mappeda 
标志 。 与 文件 系统 相关 的 函数 可 能 为 文件 分 配 一 个 新 的 物理 块 ( 例 如， 如 
果 访 问 的 块 掉 进 普通 文件 的 一 个 “ 洞 ” 中 ， 参 见 第 十 八 章 “文件 的 洞 ”一 
节 )。 在 这 种 情况 下 ， 设 置 BH_New 标志 。 


(2) 检查 BH_New 标志 的 值 ， 如 果 它 被 置 位 ， 则 调用 unmap_underlying_ 


metadata() 来 检查 页 高 速 缓存 内 的 某 个 块 设 备 缓冲 区 页 是 否 包 含 指向 磁盘 
同一 块 的 一 个 缓冲 区 ( 注 5)。 该 函数 实际 上 调用 __find_get_block() 在 
页 高 速 缓存 内 查找 一 个 旧 块 (参见 第 十 五 章 “ 在 页 高 速 缓 存 中 搜索 块 ” 一 
市 )。 如果 找 到 一 块 ， 函数 将 BH_Dirty 标 志清 0 并 等 待 直到 该 缓冲 区 的 1 
0 数据 传输 完毕 。 此 外， 如 果 写 操作 不 对 整个 缓冲 区 进行 重 写 ， 则 用 0 填 
充 未 写 区 域 。 然 后 考虑 页 中 的 下 一 个 缓冲 区 。 


如 果 写 操作 不 对 整个 缓冲 区 进行 重 写 且 它 的 BH_Delay 和 BH_Uptoaate 标 志 未 
置 位 (也 就 是 说 ,已 在 磁盘 文件 系统 数据 结构 中 分 配 了 块 ， 但 是 RAM 中 的 组 
冲 区 并 没有 有 效 的 数据 映像 }， 销 数 对 该 块 调用 11_rw_block{) 从 磁盘 读 取 此 
的 内 容 (参见 第 十 五 章 “ 癌 通用 块 层 提交 缓冲 区 首部 ”一 节 ) 。 

阻塞 当前 进程 ， 直 到 在 第 zc 步 触 发 的 所 有 读 操 作 全 部 完成 。 


一 旦 prepare_write 方 法 返回 ,generic_file _ write) 国 数 就 用 存 帮 在 用 户 态 地 址 空 
间 中 的 数据 更 新 页 。 接 下 来 ,调用 addaress_space 对 象 的 commit_write 方 法 。 这 个 方 
法 由 generic_cormit_write() 国 数 实 现 ， 几 乎 适用 于 所 有 非 日 志 型 磁盘 文件 系统 。 


generic_coemmit_wricel) 国 数 执行 下 列 步 最 , 
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调用 __block_commit_writelt) 国 数 ， 然 后 依次 执行 如 下 步骤 ， 
考虑 页 中 受 写 操作 影响 的 所 有 缓冲 区 : 对 于 其 中 的 每 个 缓 促 区 , 将 对 应 缓 促 区 
首部 的 BH_Uptodate 和 BH_Dirty 标志 置 位 ， 


b， 标记 相应 索引 市 点 为 脏 ， 正 如 第 十 五 章 “ 搜 索要 刷新 的 脏 页 ”一 市 中 所 述 ， 这 
需要 将 索引 节点 加 入 超级 块 脏 的 索引 节点 链表 。 


c. 如 果 缓 冲 区 页 中 的 所 有 缓冲 区 是 最 新 的 ， 则 将 PG_uptodate 标 志 置 位 。 


尽管 可 能 性 不 大 ， 但 在 一 个 用 户 直接 向 块 设备 文件 写 数 据 块 时 ， 还 是 会 出 现 这 种 情况 ， 
从 而 越过 文件 系统 。 
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d， 将 页 的 PG_dirty 标 志 置 位 , 并 在 基 树 中 将 页 标记 成 脏 (参见 第 十 五 章 “ 基 树 ” 
-Ns 
2. ”检查 写 操作 是 否 将 文件 增 大 。 如果 增 大 , 则 更 新 文件 索引 市 点 对 象 的 1_size 字 段 。 
3， 返回 0。 


块 设备 文件 的 prepare_write 和 commit_write 方法 
写 人 块 设备 文件 的 操作 非常 类 似 于 对 普通 文件 的 相应 操作 。 事 实 上 ， 块 设备 文件 的 
address_space 对 象 的 Prepare_write 方 法 通常 是 由 下 列国 数 实 现 的 : 
int blkdewv prepare writelstruct file *file, struct page *page, unsigned 
from, unsigned teol 
| 


return block prenare writelpage, from, to, blkdev _ get _ block); 
} 


你 可 以 看 到 ， 这 个 国 数 只 不 过 是 前 一 节 讨 论 过 的 block_prepare_writef) 国 数 的 封装 国 
数 。 当 然 , 唯一 的 差异 是 第 二 个 参数 , 它 是 一 个 指向 函数 的 指针 ,该 函数 必须 把 相对 于 文 
件 开始 处 的 文件 块 号 转换 为 相对 于 块 设备 开始 处 的 逻辑 块 号 。 回 想 一 下 , 对 于 块 设备 文件 
来 说 ， 这 两 个 数 是 一 致 的 (参见 前 面 “ 从 文件 读 取 数 据 ” 一 节 中 对 blkqev_get_block1) 
国 数 的 讨论 ) 。 


用 于 块 设备 文件 的 commit_write 方 法 是 由 下 列 简 单 的 封装 函数 实现 的 ， 


int blkdev commit writelstruct file *file, struct page *page, Unsigned 
from, unsigned tol 
{ 
return block commit write(page, from, to); 
} 


正如 你 所 看 到 的 , 用 于 块 设 备 的 ccommit_write 方 法 与 用 于 普通 文件 的 commit_write 方 
法 本 质 上 做 同样 的 事情 (我 们 在 前 一 节 摘 述 了 block_commit_writel() 国 数 )。 唯 一 的 
差异 是 这 个 方法 不 检查 写 操作 是 否 扩 大 了 文件 ;你 根本 不 可 能 在 块 设备 文件 的 末尾 追加 
字符 来 扩大 它 。 


将 脏 页 写 到 磁盘 


系统 调用 writel) 的 作用 就 是 修改 页 高 速 缓存 内 一 些 页 的 内 容 ， 如 果 页 高 速 缓存 内 没有 
所 要 的 页 则 分 配 并 追加 这 些 页 。 某 些 情况 下 (例如 文件 带 D_SYNC 标 志 打 开 )，LO 数据 
传输 立即 启动 (参见 本 章 前 面 “ 写 人 文件 ”一 市 中 generic_file_writel() 国 数 的 第 6 
步 )。 但 是 通常 WO 数据 传输 是 延迟 进行 的 ， 这 在 第 十 五 章 的 “把 脏 页 写 人 磁盘 ”一 节 中 
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当 内 核 要 有 效 启动 IO 数据 传输 时 ， 就 要 调用 文件 address_space 对象 的 writepages 
方法 , 它 在 基 树 中 寻找 脏 页 , 并 把 它们 刷新 到 磁盘 。 例 如 Ext2 文件 系统 通过 下 面 的 国 数 
实现 writepages 方法 ， 

lnt ext2 writepageststruct address_space *mapping, struct 

writeback ceontrol wwbec 】 

{ 

return mpage_writepages (mapping, wbc, ext2 get_ block), 

} 
你 可 以 看 到 ， 该 函数 是 通用 mpage_writepages() 的 一 个 简单 的 封装 函数 。 事 实 上 ， 若 
文件 系统 没有 定义 writepages 方 法 , 内 核 则 直接 调用 mpage_writepages() 并 把 NULL 
传 给 第 三 个 参数 。ext2_get_block() 函 数 在 前 面 “ 从 文件 读 取 数据 ”一 节 中 已 讲 到 过 ， 
这 是 一 个 依赖 于 文件 系统 的 函数 ， 它 将 文件 块 号 转换 成 逻辑 块 号 。 


writeback_control 数 据 结 构 是 一 个 描述 符 , 它 控制 writeback 写 回 操 作 如 何 执 行 , 我 
们 在 第 十 五 章 “ 搜 索要 被 刷新 的 胜 页 ”一 节 中 已 有 描述 。 


mpage_writepagesft) 国 数 执行 下 列 步 最 ， 


1. 如 果 请 求 队列 写 拥塞 ， 但 进程 不 希望 阻塞 ， 则 不 向 磁盘 写 任何 页 就 返回 。 


2. ”确定 文件 的 首页 , 如 果 writeback_control 描 述 符 给 定 一 个 文件 内 的 初始 位 置 , 函 
数 将 把 它 转换 成 页 索引 。 否 则 ， 如 果 writeback_control 描述 符 指定 进程 无 需 等 
待 WO 数 据 传 输 结 束 , 它 将 mapping->writeback_index 的 值 设 为 初始 页 索引 ( 即 
从 上 一 个 写 回 操作 的 最 后 一 页 开始 扫描 )。 最 后 ， 如 果 进 程 必须 等 待 IO 数据 传输 
完毕 ， 则 从 文件 的 第 一 页 开始 扫描 。 


3. ”调用 find_get_pages_tag() 在 页 高 速 缓存 中 查找 脏 页 描述 符 (参见 第 十 五 章 “ 基 
树 的 标记 ”一 节 )。 


4. ”对 上 一 步 得 到 的 每 个 页 描述 符 ， 执行 如 下 步 又 : 
a. 调用 1ock_page1{) 来 锁定 该 页 。 


b. 确认 页 是 有 效 的 并 在 页 高 速 缓存 内 【因为 另 一 个 内 核 控制 路 径 可 能 已 在 第 3 步 
与 第 4a 步 间 作用 于 该 页 )。 


c. 检查 页 的 PG_writeback 标 志 。 如 果 置 位 ， 表 明 页 已 被 刷新 到 磁盘 。 如 果 进 程 
必须 等 待 I/O 数据 传输 完毕 ， 则 调用 wait_on_page_bit 1() 在 PG_writeback 
请 0 之 前 一 直 阻 塞 当前 进程 ; 当 国 数 结束 时 ， 以 前 运行 的 任何 writeback 操 作 
都 被 终止 。 否则 , 如 果 进 程 无 需 等 待 , 它 将 检查 PG_dirty 标 志 : 如 果 PG_dirty 
标志 现 已 清 0, 则 正在 运行 的 写 回 操作 将 处 理 该 页 ， 将 它 解锁 并 跳 回 第 4a 步 继 
续 下 一 页 。 
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d.。 如 果 get_block 的 参数 是 NULL (没有 定义 writepages 方 法 )， 它 将 调用 文件 
address_space 对 象 的 mapping->writepage 方 法 将 页 刷新 到 磁盘 。 否 则 , 如果 
get_block 的 参数 不 是 NULL， 它 就 调用 mpage_writepage1() 国 数 。 详 见 第 8 步 。 


5. 调用 congd_reschead() 来 检查 当前 进程 的 TIF_NEED_RESCHED 标 志 , 如 果 该 标志 
置 位 就 调用 schedule() 国 数 。 


6. ”如果 函数 没有 扫描 完 给 定 范围 内 的 所 有 页 ,或 者 写 到 磁盘 的 有 效 页 数 小 于 
writeback_control 描述 符 中 原先 的 给 定 值 ,那么 跳 回 第 3 步 。 


7. 如 果 writeback_control 描 述 符 没 有 给 定 文件 内 的 初始 位 置 ， 它 将 最 后 一 个 扫描 
页 的 索引 值 赋 给 mapping->writeback_index 字段 。 


8. ”如 果 在 第 4d 步 中 调用 了 mpage_writepage() 函 数 ， 而且 返 回 了 bio 描述 符 地 址 ， 
那么 调用 mpage_bio_submit (){ 风 下面 )。 


像 Ext2 这 样 的 典型 文件 系统 所 实现 的 writepage 方 法 是 一 个 通用 的 block_write_ 
full_page() 国 数 的 封装 函数 ,并 将 依赖 于 文件 系统 的 get_block 国 数 的 地 址 作为 参 
数 传 给 它 。 就 像 本 章 前 面 “ 从 文件 读 取 数据 ”一 节 描 述 的 block_read_full_page() 
一 样 ，block_write_full_page() 函 数 也 依次 执行 : 分 配 页 缓冲 区 首部 (如果 还 不 
在 缓冲 区 页 中 ) ， 对 每 页 调用 submit_bh () 函数 来 指定 写 操 作 。 就 块 设备 文件 而 言 ， 
就 用 block_write_full_page() 的 封装 函数 blkdev_writepage|() 实 现 writepage 
方法 。 


许多 非 日 志 型 文件 系统 依赖 于 mpage_writepage() 函数 而 不 是 自 定义 的 writepage 方 
法 。 这 样 能 改善 性 能 ， 因 为 mpage_writepage |) 函数 进行 1/0 传输 时 ， 在 同一 个 bio 描 
述 符 中 诊 集 尽 可 能 多 的 页 。 这 就 使 得 块 设 备 驱 动 程序 能 利用 现代 硬盘 控制 器 的 DMA 分 
散 一 聚集 能 力 。 


长 话 短 说 ，mpage_writepage() 函数 将 检查 : 待 写 页 包含 的 块 在 磁盘 上 是 否 不 相 邻 ， 读 
页 是 否 包含 文件 洞 , 页 上 的 某 块 是 否 没 有 脏 或 不 是 最 新 的 。 如 果 以 上 情况 至 少 一 条 成 立 ， 
函数 就 像 上 面 那样 仍然 用 依赖 于 文件 系统 的 writepage 方 法 。 否 则 ， 将 页 追加 为 bio 描 
述 符 的 一 段 。bio 描述 符 的 地 址 将 作为 参数 被 传 给 函数 ， 如 果 该 地 址 为 NULL， 
mpage_writepage() 将 初始 化 一 个 新 的 bio 描述 符 并 将 地 址 返回 给 调用 函数 ， 调 用 函数 
转 而 在 未 来 调用 mpage_writepage() 时 再 将 该 地 址 传 回 来 。 这 样 ， 同 一 个 bio 可 以 加 载 
几 个 页 。 如 果 bio 中 某 页 与 上 一 个 加 载 页 不 相 令 mpage_writepage{) 就 调用 
mpage_bio_submit () 开 始 该 bio 的 1/0 数据 传输 ， 并 为 该 页 分 配 一 个 新 的 bio。 


mpage_bio_submit () 国 数 将 bio 的 bi_ena_io 方 法 设 为 mpage_endq_io writef) 的 地 
址 ， 然 后 调用 submit_biol() 开 始 传输 (参见 第 十 五 章 “ 向 通用 块 层 提交 缓冲 区 首部 ” 
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一 节 )。 一 旦 数据 传输 成 功 结 束 ， 完 成 国 数 mpage_end_ico_writel) 就 唤醒 那些 等 待 页 
传输 结束 的 进程 ， 并 清除 bio 描述 符 。 


内 存 映 身 


正如 我 们 在 第 九 章 的 “线性 区 ”一 节 中 已 经 介绍 过 的 一 样 , 一 个 线性 区 可 以 和 磁盘 文件 
系统 的 普通 文件 的 某 一 部 分 或 者 块 设备 文件 相关 联 。 这 就 意味 着 内 核 把 对 区 线性 中 页 内 
革 个 字 节 的 访问 转换 成 对 文件 中 相应 字 节 的 操作 。 这 种 技术 称 为 内 存 映射 (memory 
mappine) 。 


有 两 种 类 型 的 内 存 映射 : 


共 草 型 
在 线性 区 页 上 的 任何 写 操作 都 会 修改 磁盘 上 的 文件 ;而 且 , 如 果 进 程 对 共享 映射 中 
的 一 个 页 进行 写 , 那 么 这 种 修改 对 于 其 他 映射 了 这 同一 文件 的 所 有 进程 来 说 都 是 可 
见 的 。 

私有 型 
当 进 程 创建 的 映射 只 是 为 读 文 件 ,而 不 是 写 文 件 时 才 会 使 用 此 种 映射 ,出 于 这 种 目 
的 , 私有 映射 的 效率 要 比 共享 映射 的 效率 更 高 。 但 是 对 私有 了 映射 页 的 任何 写 操作 都 
会 使 内 核 停止 映射 该 文件 中 的 页 。 因此, 写 操作 既 不 会 改变 磁盘 上 的 文件 , 对 访问 
相同 文件 的 其 他 进程 也 不 可 见 。 但 是 私有 内 存 映射 中 还 没有 被 进程 改变 的 页 会 因为 
其 他 进程 进行 的 文件 更 新 而 更 新 。 


进程 可 以 发 出 一 个 mmap () 系统 调用 来 创建 一 个 新 的 内 存 映 射 (参见 本 章 后 面 的 “创建 内 
存 映 射 ” 一 节 )。 程 序 员 必须 指定 一 个 MABP_SHARED 标 志 或 MAP_PRIVRTE 标志 作为 这 
个 系统 调用 的 参数 。 正 如 你 可 以 猜 到 的 那样 ， 前 一 种 情况 下 ,映射 是 共享 的 ， 而 后 一 种 
情况 下 ,映射 是 私有 的 。 一 旦 创建 了 这 种 映射 ， 进 程 就 可 以 从 这 个 新 线性 区 的 内 存单 元 
恋 取 数据 ， 也 就 等 价 于 读 取 了 文件 中 存放 的 数据 。 如 果 这 个 内 存 上 映射 是 共享 的 ， 那么 进 
程 可 以 通过 对 相同 的 内 存单 元 进行 写 而 达到 修改 相应 文件 的 目的 。 为 了 撤消 或 者 缩小 一 
个 内 存 映 射 ， 进 程 可 以 使 用 munmap () 系 统 调用 (参见 后 面 的 “撤销 内 存 映射 ”一 节 )。 


作为 一 条 通用 规则 , 如 果 一 个 内 存 映射 是 共享 的 , 相应 的 线性 区 就 设置 了 VM_SHARED 标 
志 ， 如果 一 个 内 存 映射 是 私有 的 ， 那 么 相应 的 线性 区 就 清除 了 VM_SHARED 标志 。 正 如 
我 们 在 后 面 会 看 到 的 一 样 ， 对 于 只 读 共 享 内 存 映射 来 说 ， 有 一 个 特例 不 符合 本 规则 。 


内 存 映射 的 数据 结构 
内 存 映射 可 以 用 下 列 数据 结构 的 组 合 来 表示 ， 
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。 ”与 所 映射 的 文件 相关 的 索引 节点 对 象 

。* “所 映射 文件 的 aadress_space 对 象 

。 不 同 进 程 对 一 个 文件 进行 不 同 映射 所 使 用 的 文件 对 象 

。 “对 文件 进行 每 一 不 同 映射 所 使 用 的 vm_area_struct 描述 符 

。 “对 文件 进行 映射 的 线性 区 所 分 配 的 每 个 页 框 所 对 应 的 页 描述 符 


图 16-2 说 明了 这 些 数 据 结 构 是 如 何 链接 在 一 起 的 。 图 的 左边 给 出 了 标识 文件 的 索引 节 
点 。 每 个 索引 节点 对 象 的 1_mapping 字 段 指向 文件 的 adadress_space 对 象 。 每 个 
addqress_space 对 象 的 Page_tree 字 段 又 指 呵 该 地 址 空间 的 页 的 基 树 (参见 第 十 五 章 
“ 基 树 ”一 节 ), 而 i_mmap 宇 段 指 向 第 二 棵 树 ， 叫做 radix 优先 级 搜索 树 (priority search 
tree, PST) ,这 种 树 由 地 址 空间 的 线性 区 组 成 。- PST 的 主要 作用 是 为 了 执行 “ 反 向 映射 ”， 
这 是 为 了 快速 标识 共享 一 页 的 所 有 进程 。 我们 将 在 下 一 章 中 详细 讨论 PST, 因为 它们 用 
于 页 框 回 收 。 对 同一 文件 的 文件 对 象 和 索引 布点 之 间 链 接 的 建立 是 通过 f_mapping 宇 有 段 
达到 的 。 


vm peoff 


eT 区 ; , 
struct | struct 


vm filel 


f mappin 一 全 
mapp1ine criet f mapping 2 \ 
file file | 





16-2: 文件 内 存 映 射 的 数据 结构 
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每 个 线性 区 描述 符 都 有 一 个 vm_file 字 段 , 与 所 映射 文件 的 文件 对 象 链接 ( 如果 该 字段 
为 NULL, 则 线性 区 没有 用 于 内 存 上 映射 )。 第 一 个 映射 单元 的 位 置 存放 在 线性 区 描述 符 的 
vm_pgoff 字 段 , 它 表示 以 页 大 小 为 单位 的 偏 移 量 。 所 映射 的 文件 那 部 分 的 长 度 就 是 线性 
区 的 大 小 , 这 可 以 从 vm_start 和 vm_end 字 段 计 算出 来 。 


共享 内 存 映射 的 页 通常 都 包含 在 页 高 速 缓存 中 ， 私有 内 存 映射 的 页 只 要 还 没有 被 修改 ， 
也 都 包含 在 页 高 速 缓存 中 。 当 进程 试图 修改 一 个 私有 内 存 映射 的 页 时 , 内 核 就 把 该 页 框 
进行 复制 , 并 在 进程 页 表 中 用 复制 的 页 来 替换 原来 的 页 框 , 这 是 第 八 章 中 介绍 的 写 时 复 
制 机 制 的 应 用 之 一 。 虽 然 原来 的 页 框 还 仍然 在 页 高 速 缓存 中 ,但 不 再 属于 这 个 内 存 上 映射 ， 
这 是 由 于 被 复制 的 页 框 替 换 了 原来 的 页 框 。 依 次 类 推 , 这 个 复制 的 页 框 不 会 被 插入 到 页 
高 速 缓 存 中 ， 因 为 其 中 所 包含 的 数据 不 再 是 磁盘 上 表示 那个 文件 的 有 效 数 据 。 


图 16-2 还 显示 了 包含 在 页 高 速 缓存 中 的 几 个 指向 内 存 映 射 文件 的 页 的 页 描述 符 。 注 意图 
中 的 第 一 个 线性 区 有 三 页 ,但 是 只 为 它 分 配 了 两 个 页 框 ， 猜想 一 下 , 大概 是 拥有 这 个 线 
性 区 的 进程 从 没有 访问 过 第 三 页 。 


对 每 个 不 同 的 文件 系统 ,内核 提供 了 几 个 钧 子 (hook) 函数 来 定制 其 内 存 映 射 机 制 。 内 
存 映 射 实现 的 核心 委托 给 文件 对 象 的 mmap 方 法 。 对 于 大 多 数 磁盘 文件 系统 和 块 设 备 文件 
,这 个 方法 是 由 叫做 generic_file_mmap() 的 通用 函数 实现 的 , 该 函数 将 在 下 一 节 进 行 
描述 。 

文件 内 存 陕 射 依 赖 于 第 九 章 的 “请 求 调 页 ”一 节 描 述 的 请 求 调 页 机 制 。 事实 上 , 一 个 新 
建立 的 内 存 映 射 就 是 一 个 不 包含 任何 页 的 线性 区 。 当 进程 引用 线性 区 中 的 一 个 地 址 时 ， 
缺 页 异常 发 生 ， 缺 页 异常 中 断 处 理 程 序 检查 线性 区 的 nopage 方法 是 否 被 定义 。 如 果 没 
有 定义 nopage, 则 说 明 线 性 区 不 映射 磁盘 上 的 文件 ; 否则 , 进行 映射 , 这 个 方法 通过 访 
回 块 设备 处 理 读 取 的 页 .几乎 所 有 磁盘 文件 系统 和 块 设备 文件 都 通过 filemap_nopage() 
国 数 实现 nopage 方 法 。 


创建 内 存 映 射 

要 创建 一 个 新 的 内 存 映射 ， 进 程 就 要 发 出 一 个 mmap () 系统 调用 ， 并 向 该 函数 传递 以 下 
参数 : 

。 ”文件 描述 符 ， 标 识 要 映射 的 文件 。 

。 ”文件 内 的 偏 移 量 ， 指 定 要 映射 的 文件 部 分 的 第 一 个 字符 。 

。 ”要 映射 的 文件 部 分 的 长 度 。 


Se ”和 


。 ”一 组 标志 。 进程 必须 显 式 地 设置 MAP_SHARED 标 志 或 MAP_PRIVATE 标 志 来 指定 
所 请 求 的 内 存 映 射 的 种 类 ( 注 6)。 

。 一 组 权限 ,指定 对 线性 区 进行 访问 的 一 种 或 者 多 种 权限 : 读 访问 (PROT_READ)、 
写 访问 (PROT_WRITE) 或 执行 访问 (PROT_EXEC)。 


。 ”一 个 可 选 的 线性 地 址 , 内 核 把 该 地 址 作为 新 线性 区 应 该 从 哪里 开始 的 一 个 线索 。 如 
果 指 定 了 MAP_FIXED 标 志 , 且 内 核 不 能 从 指定 的 线性 地 址 开始 分 配 新 线性 区 , 那 
么 这 个 系统 调用 失败 。 


mmap () 系统 调用 返回 新 线性 区 中 第 一 个 单元 位 置 的 线性 地 址 。 为 了 兼容 起 见 ， 在 80 x 
86 体 系 结构 中 ， 内 核 在 系统 调用 表 中 为 mmap() 保 留 两 个 表 项 ， 一 个 在 索引 90 处 , 一 个 
在 索引 192 处 。 前 一 个 表 项 对 应 于 old_mmap() 服 务 例 程 (由 老 的 C 库 使 用 ), 而 后 一 个 
表 项 对 应 于 sys_mmap2 () 服 务 例 程 (由 新 近 的 C 库 使 用 )。 这 两 个 服务 例 程 仅 在 如 何 传 
递 系统 调用 的 第 6 个 参数 时 有 所 差异 。 这 两 个 服务 例 程 都 调用 do-mmap-pg off() 涌 数 
(参见 第 九 章 “ 分 配 线性 地 址 区 间 ” 一 节 )。 我 们 现在 就 详细 介绍 当 创建 对 文件 进行 映射 
的 线性 区 时 执行 的 步骤 ,我们 所 讨论 的 是 do_mmap_pgoff() 的 file 参 数 (文件 对 象 指 针 ) 
非 空 的 情形 。 为 清楚 起 见 , 我 们 要 列举 描述 do_mmap_pgoff () 的 步骤 , 并 指出 在 新 条 件 
下 执行 的 其 他 步骤 。 
落 权 7 
检查 是 否 为 要 映射 的 文件 定义 了 mmap 文件 操作 。 如 果 没 有 ， 就 返回 一 个 错误 码 。 
文件 操作 表 中 的 mmap 值 为 NULL 说 明 相应 的 文件 不 能 被 映射 (例如 ， 因 为 这 是 一 
个 目录 )。 
艺 儿 2 
函数 get_unmapped_area1() 调 用 文件 对 象 的 get_unmapped_area 方 法 , 如果 已 定 
义 ， 就 为 文件 的 内 存 映射 分 配 一 个 合适 的 线性 地 址 区 间 。 磁 盘 文 件 系统 不 会 定义 这 
个 方法 , 那么 像 第 九 章 “ 线 性 区 的 处 理 ” 一 节 描 述 的 那样 , get_unmapped_area1{) 
函数 就 调用 内 存 描述 符 的 get_unmapped_area 方 法 。 


芗 最 3 
除了 进行 正常 的 一 致 性 检查 之 外 ,还 要 对 所 请 求 的 内 存 上 映射 的 种 类 (存放 在 mmap () 


注 石 ， 进程 可 以 设置 MAP_ANONYMOUS 标 志 来 指定 新 线性 区 是 匿名 的 , 也 就 是 说 , 与 任何 基于 感 
盘 的 文件 都 无 闫 (大 见 第 九 间 的“ 请求 调 页 ”一 节 )。 进程 了 电 可 以 创建 具有 MAP_SHARED 
和 MAP_ANONYMOUS 标志 的 线性 区 。 在 这 种 情况 下 、 线 性 区 在 tmpfs 文件 系统 中 映射 一 
个 特殊 的 文件 ( 泰 见 第 十 九 章 的 “IPC 共享 肉 看” 一 节 )，, 这 个 文件 可 以 由 创建 进程 的 所 
有 后 代 来 访问 。 


050 





系统 调用 的 fl1ags 参数 中 ) 与 在 打开 文件 时 所 指定 的 标志 (存放 在 file 一 f-mode 

字段 中 ) 进行 比较 。 根 据 这 两 个 消息 源 ， 执 行 以 下 的 检查 ; 

。 如果 请 求 一 个 共享 可 写 的 内 存 映 射 , 就 检查 文件 是 为 写 人 而 打开 的 , 而 不 是 以 
追加 模式 打开 的 (open 1() 系 统 调用 的 0O_APPEND 标志 )。 

。 ”如果 请 求 一 个 共享 内 存 上 映射 ， 就 检查 文件 上 没有 强制 销 (参见 第 十 二 章 中 的 
“文件 加 销 ” 一 节 )。 

。 ”对 于 任何 种 类 的 内 存 映射 ， 都 要 检查 文件 是 为 读 操作 而 打开 的 。 

如 果 以 土 这 些 条 件 都 不 能 满足 ， 就 返回 一 个 错误 码 。 

另外 ， 当 初始 化 新 线性 区 描述 符 的 vm_flags 字 段 时 ， 要 根据 文件 的 访问 权限 和 所 

请 求 的 内 存 上 映射 的 种 类 设置 VM_READ. VM_WRITE、VM_EXEC, VM_SHARED.、 

VM_MAYREAD、VM_ MAYWRITE、VM_MAYEXEC 和 VM _MAYSHARE 标 志 (参见 第 

九 章 “线性 区 访问 权限 ”一 节 )。 最 佳 情 况 下 ， 对 于 不 可 写 共 享 内 存 映 射 ， 标 志 


”VM_SHARED 和 VM_MAYWRITE 请 0。 可 以 这 样 处 理 是 因为 不 允许 进程 写 和 这 个 线 


性 区 的 页 , 因此 , 这 种 映射 的 处 理 就 与 私有 映射 的 处 理 相 同 。 但 是 , 内 核实 际 上 多 
许 共享 该 文件 的 其 他 进程 读 这 个 线性 区 中 的 页 。 


芗 到 4 


用 文件 对 象 的 地 址 初始 化 线性 区 朱 述 符 的 vm_file 字 段 ， 并 增加 文件 的 引用 计数 

器 。 对 映射 的 文件 调用 mmap 方法 , 将 文件 对 象 地 址 和 线性 区 描述 符 地 址 作为 参数 

传 给 它 。 对 于 太 多 数 文 件 系 统 ， 读 方法 由 generic_file_mmap() 实 现 ， 它 执行 下 

列 步 又 ， 

a， 将 当前 时 间 赋 给 文件 索引 节点 对 象 的 i_atime 宇 段 ， 并 将 该 索引 节点 标记 为 脏 。 

b. 用 generic_file_vm_ops 表 的 地 址 初始 化 线性 区 描述 符 的 vm_cps 字 段 。 在 这 
个 表 中 的 方法 , 除了 nopage 和 populate 方 村 外 ,其 他 所 有 都 为 空 。 nopage 方 
法 由 filemap_nopage{) 实 现 ， 而 populate 方 法 由 filemap_populate(}) 实 
现 (参见 本 章 后 面 的 “ 非 线性 内 存 上 映射 ”一 节 )。 


芗 坚 5 


增加 文件 索引 节点 对 象 i_writecount 字段 的 值 ， 该 字段 就 是 写 进程 的 引用 计数 
若 。 


撤消 内 存 了 映射 
当 进 程 准备 撤消 一 个 内 存 映 射 时 , 就 调用 munmap () ; 该 系统 调用 还 可 用 于 减少 每 种 内 存 
区 的 大 小 。 给 它 传递 的 参数 如 下 : 


访问 文件 657 


。 ”要 删除 的 线性 地 址 区 间 中 第 一 个 单元 的 地 址 。 
。 ”要 删除 的 线性 地 址 区 间 的 长 度 。 


该 系统 调用 的 sys_munmap () 服 务 例 程 实际 上 是 调用 ac_munmap () 国 数 ， 该 国 数 在 第 九 
章 的 “释放 线性 地 址 区 间 ” 一 节 已 有 描述 。 注 意 ， 不 需要 将 待 撒 销 可 写 共 享 肉 存 映射 中 
的 页 刷新 到 磁盘 。 实 际 上 , 因为 这 些 页 仍然 在 页 高 速 缓存 内 ,因此 继续 起 磁盘 高 速 缓存 
的 作用 。 


内 存 了 映射 的 请 求 调 页 

出 于 效率 的 原因 , 内 存 映 射 创建 之 后 并 没有 立即 把 页 框 分 配给 它 , 而 是 尽 可 能 向 后 推迟 
到 不 能 再 推迟 一 一 也 就 是 说 , 当 进程 试图 对 其 中 的 一 页 进行 寻 址 时 ,就 产生 一 个 “ 缺 页 " 
异常 。 


我 们 在 第 九 章 中 的 “ 缺 页 异常 处 理 程序 ”一 节 中 已 经 看 到 ,内 核 是 如 何 验证 缺 页 所 在 的 
地 址 是 否 包含 在 某 个 进程 的 线性 区 中 的 。 如 果 是 这 样 , 那么 内 核 就 检查 这 个 地 址 所 对 应 
的 页 表 项 , 如 果 表 项 为 空 就 调用 do_no_page() 销 数 (参见 第 九 章 的 “请 求 调 页 ”一 节 ) 。 


do_nc_page () 国 数 执行 对 请 求 调 页 的 所 有 类 型 都 通用 的 操作 ， 例 如 分 配 页 框 和 更 新 页 
表 。 它 还 检查 所 涉及 的 线性 区 是 否定 义 了 nopage 方 法 。 在 第 九 章 的 “请 求 调 页 ”一 节 
中 , 我们 已 经 介绍 了 这 个 方法 没有 定义 的 情况 (匿名 线性 区 )。 现在 我 们 讨论 当 nopage 
方法 被 定义 时 ，do_no_page() 所 执行 的 主要 操作 : 


1. 调用 nopage 方 法 ， 它 返回 包含 所 请 求 页 的 页 框 的 地 址 。 

2. ”如果 进 程 试 图 对 页 进行 写 人 而 该 内 存 映 射 是 私有 的 , 则 通过 把 刚 读 取 的 页 拷贝 一 份 
并 把 它 插入 页 的 非 活动 链表 中 来 避免 进一步 的 “ 写 时 复制 ”异常 (参见 第 十 七 章 )。 
如 果 私 有 内 存 映射 区 域 还 没有 一 个 包含 新 页 的 被 动 匿名 线性 区 (slave anonymous 
memory region), 它 要 么 追加 一 个 新 的 被 动 匿 名 线性 区 , 要 么 增 大 现 有 的 (参见 第 
九 章 的 “线性 区 ”一 节 )。 在 下 面 的 步骤 中 ， 该 函数 使 用 新 页 而 不 是 nopage 方法 
返回 的 页 ， 所 以 后 者 不 会 被 用 户 态 进程 修改 。 


3， 如 果 某 个 其 他 进程 删改 或 作废 了 该 页 (address_space 描 述 符 的 truncate_count 
字段 就 是 用 于 这 种 检查 的 )， 函 数 将 跳 回 第 1 步 ， 尝 试 再 次 获得 该 页 。 


4.， ”增加 进程 内 存 描述 符 的 rss 字段 ,表示 一 个 新 页 框 已 分 配给 进程 。 


5. ”用 新 页 框 的 地 址 以 及 线性 区 的 vm_page_prot 字 段 中 所 包含 的 页 访问 权 来 设置 缺 页 
所 在 的 地 址 对 应 的 页 表 项 。 


6， 如果 进 程 试 图 对 这 个 页 进行 写 人 , 则 把 页 表 项 的 Read/Write 和 Dirty 位 强制 置 为 





658 第 十 六 章 


1 。 在 这 种 情况 下 ,或 者 把 这 个 页 框 互 斥 地 分 配给 进程 ， 或 者 让 页 成 为 共享 ， 在 这 
两 种 情况 下 ， 都 应 该 允许 对 这 个 页 进行 写 入 。 


请 求 调 页 算法 的 核心 在 于 线性 区 的 nopage 方 法 。 一 般 来 说 ,该 方法 必须 返回 进程 所 访 
问 页 所 在 的 页 框 地 址 。 其 实现 依赖 于 页 所 在 线性 区 的 种 类 。 


在 处 理 对 磁盘 文件 进行 映射 的 线性 区 时 ,nopage 方 法 必须 首先 在 页 高 速 缓存 中 查找 所 请 
求 的 页 。 如果 没 有 找到 相应 的 页 ,这 个 方 半 就 必须 将 其 从 磁盘 上 读 入 。 大 部 分 文件 系统 
都 是 使 用 fijlemap_nopage() 函数 来 实现 nopage 方 法 的 ， 读 函数 接收 三 个 参数 ， 


避 上 仔 刁 
所 请 求 页 所 在 线性 区 的 描述 符 地 址 。 
address 
所 请 求 页 的 线性 地 址 。 
type 
存放 函数 侦 测 到 的 缺 页 类 型 (VM_FAULT_MAJOR 或 VM_FAULT_MINOR) 的 变量 的 
指针 。 


filemap_nopage() 国 数 执行 以 下 步骤 ， 


Ts 从 area->vm_file 字段 得 到 文件 对 人 象 地 址 file，; 从 file->f_mapping 得 到 
address_space 对 象 地 址 ; 从 address_space 对 象 的 host 字 段 得 到 索引 节点 对 象 


2. ”用 area 的 vm_star 和 wm_pgoff 字段 来 确定 从 address 开 始 的 页 对 应 的 数据 在 文 
件 中 的 偏 移 量 。 


3， 检查 文件 偏 称 量 是 否 大 于 文件 大 小 。 如果 是 ,就 返回 NULL， 这 就 意味 着 分 配 新 页 
和 失败， 除非 缺 页 是 由 调试 程序 通过 ptrace() 系 统 调 用 跟踪 另 一 个 进程 引起 的 ,我 
们 不 打算 讨论 这 种 特殊 情况 。 

4. ”如 果 线 性 区 的 VM_RAND_READ 标 志 置 位 ( 见 下 面 )， 我 们 假定 进程 以 随机 方式 读 
内 存 映 射 中 的 页 ， 那 么 它 忽略 预 读 ， 跳 到 第 10 步 。 

5. 如果 线 性 区 的 VM_SEQ_READ 标 志 置 位 ( 见 下 面 ), 我 们 假定 进程 以 严格 顺序 方式 
读 内 存 映 射 中 的 页 , 那么 它 调 用 page_cache_readahead() 从 缺 页 处 开始 预 读 【 参 
见 本 章 前 面 “文件 的 预 读 ” 一 节 )。 

6. 调用 find_get_page()， 在 页 高 速 缓存 内 寻找 由 adqdress_space 对 象 和 文件 偏 移 
量 标识 的 页 。 如 果 设 找到 这 样 的 页 ， 哑 到 第 11 步 。 


ee 





如 果 国 数 运行 至 此 ,说 明 没 在 页 高 速 缓存 内 找到 页 ,检查 内 存 区 的 VM_SEQ_READ 标 志 ， 

a. 如 果 标 志 置 位 ， 内核 将 强行 预 读 线性 区 中 的 页 ， 从 而 预 读 算法 失败 , 它 就 调用 
handle_ra_miss{) 来 调整 预 读 参 数 (参见 本 章 前 面 “文件 的 预 读 ”一 节 ), 并 
跳 到 第 10 步 。 

b. 和 否则， 如 果 标 志 未 置 位 ， 将 文件 file_ra_state 描述 符 中 的 mmap_miss 计数 
器 加 1。 如 果 失 败 数 远大 于 命中 数 (存放 在 mmap_hit 计数 器 内 )， 它 将 忽略 预 
读 ， 跳 到 第 10 步 。 

如 果 预 读 设 有 永久 禁止 (file_ra_state 描 述 符 的 za_pages 字 段 大 于 0), 它 将 调 

用 do_page_cache_readahead{)， 读 人 围绕 请 求 页 的 一 组 页 。 

调用 fina_get_page|) 来 检查 请 求 页 是 否 在 页 高 速 缓存 中 , 如果 在 , 则 跳 到 第 11 步 ， 


. 调用 page_cache_read|)。 这 个 国 数 检 查 请 求 页 是 否 在 页 高 速 缓存 中 , 如 果 不 在 ， 


则 分 配 一 个 新 页 框 , 把 它 追 加 到 页 高 速 缓存 , 执行 mapping->a_ops->readpage 方 
法 ， 安 排 一 个 LO 操作 从 磁盘 读 人 该 页 内 容 。 


， 调 用 grab_swap_token() 函 数 ， 尽 可 能 为 当前 进程 分 配 一 个 交换 标记 (参见 第 十 


七 章 “ 交 换 标记 ”一 节 )。 


， 请 求 页 现 已 在 页 商 速 缓存 内 , 将 文件 file_ra_state 描 述 符 的 mmap_hit 计 数 器 加 1。 
.如果 页 不 是 最 新 的 (标志 PG_uptodate flag 未 置 位 )， 就 调用 lock_page() 销 定 


该 页 ， 执行 Iapping->a_ops->readpage 方法 来 触发 1/0 数据 传输 ， 调 用 
wait_on_page_bit {) 后 睡眠 ， 一 直 等 到 读 页 被 解 销 ， 就 是 说 等 到 数据 传输 完成 。 


调用 mark_page_accessed() 来 标记 请 求 页 为 访问 过 (参见 下 一 章 )。 


. 如 果 在 页 高 速 缓存 内 找到 该 页 的 最 新 版 , 将 *type 设 为 VM_FAULT_MINOR, 否则 


设 为 VM_FRAULT_MAJOR 。 


返回 请 求 页 地 址 。 


用 户 态 进 程 可 以 通过 madvise |() 系 统 调 用 来 调整 filemap_nopage1() 范 数 的 预 读 行为 。 
MADV_RANDOM 命令 将 线性 区 的 VM_RAND READ 标 志 置 位 ， 从 而 指定 以 随机 方式 访问 线 
性 区 的 页 。MADV_SEQUENTIAL 命令 将 线性 区 的 VM_SEQ_READ 标志 置 位 ， 从 而 指定 
以 严格 顺序 方式 访问 页 。 最 后 ，MADV_NORMAL 命令 将 复位 VM_RAND_READ 和 
VM_SEQ_READ 标 志 ， 从 而 指定 以 不 确定 的 顺序 访问 页 。 


把 内 存 映 射 的 脏 页 刷新 到 磁盘 
进程 可 以 使 用 msync () 系统 调用 把 属于 共享 内 存 映 射 的 脏 页 刷新 到 磁盘 。 这 个 系统 调用 


OO 


所 接收 的 参数 为 : 一 个 线性 地 址 区 间 的 起 始 地 址 、 区 间 的 长 度 以 及 具有 下 列 含义 的 一 组 


MS_SYNC 
要 求 这 个 系统 调用 挂 起 进程 ， 直 到 LO 操作 完成 为 止 。 在 这 种 方式 中 , 调用 进程 就 
可 以 假设 当 系 统 调用 完成 时 ， 这 个 内 存 映射 中 的 所 有 页 都 已 经 被 刷新 到 磁盘 。 
MS_ASYNC (对 MS_SYNC 的 补充 ) 
要 求 系统 调用 立即 返回 ， 而 不 用 挂 起 调用 进程 。 


MS_INVALIDATE 
要 求 系统 调用 使 同一 文件 的 其 他 内 存 映 射 无 效 (没有 真正 实现 , 因为 在 Linux 中 无 
用 )。 


对 线性 地 址 区 间 中 所 包含 的 每 个 线性 区 , sys_msync () 服 务 例 程 都 调用 msync_interval ()。 
后 者 依次 执行 以 下 操作 : 


1， ”如果 线 性 区 摘 述 符 的 vm_file 字段 为 NULL， 或 者 如 果 VM_SHARED 标 志清 0， 就 
返回 0 (说 明 这 个 线性 区 不 是 文件 的 可 写 共 享 内 存 映 射 ) 。 


2， 调用 filemap_sync() 函 数 ,该 函数 扫描 包含 在 线性 区 中 的 线性 地 址 区 间 所 对 应 的 
页 表 项 。 对 于 找到 的 每 个 页 ， 重 设 对 应 页 表 项 的 Dirty 标志 ， 调用 flush_tlb_ 
pagel() 刷 新 相应 的 转换 后 援 缓冲 器 (translation lookaside buffer，TLB ) 。 然 后 设 
置 页 描述 符 中 的 PG-dirty 标志 ， 把 页 标记 为 脏 。 


3. 如果 MS_ASYNC 标志 置 位 ， 它 就 返回 。 因 此 ，MS_ASYNC 标志 的 实际 作用 就 是 将 
线性 区 的 页 标志 PG_dirty 置 位 。 读 系统 调用 并 没有 实际 开始 IO 数据 传输 。 


4. ”如果 沙 数 运行 至 此 , 则 MS_SYNC 标 志 置 位 ,因此 函数 必须 将 内 存 区 的 页 刷新 到 磁 
盘 ,， 而且， 当前 进程 必须 睡眠 一 直到 所 有 IO 数据 传输 结束 。 为 做 到 这 一 点 ， 国 数 
要 得 到 文件 索引 节点 的 信号 量 i_sem。 


5， 调用 filemap_fdatawritet) 国 数 ， 读 国 数 接收 的 参数 为 文件 的 address_space 
对 和 象 的 地 址 ,该 函数 必须 用 WB_SYNC_ALL 同 步 模 式 建立 一 个 writeback_control 
描述 符 , 而 且 要 检查 地 址 空间 是 否 有 内 置 的 writepages 方 法 。 如 果 有 ， 则 调用 这 
个 函数 后 返回 。 如 果 没 有 ,就 执行 mpage_writepages () 国 数 (参见 本 章 前 面 “将 
脏 页 写 到 磁盘 ”一 节 ) 。 

6. ”检查 文件 对 象 的 fsync 方 法 是 否 已 定义 ， 如 果 是 ,就 执行 它 。 对 于 普通 文件 ,这 个 
方法 限制 自己 把 文件 的 索引 节点 对 象 剧 新 到 磁盘 . 然而 , 对 于 块 设备 文件 , 这 个 方 
法 调用 sync_blockdev() ， 它 会 激活 该 设备 所 有 脏 缓冲 区 的 O 数据 传输 。 
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7. 执行 filjemap_fdatawait () 国 数 。 在 第 十 五 章 的 “ 基 树 的 标记 ”一 节 中 讲 过 ， 页 
高 速 缓 存 中 的 基 树 标识 了 所 有 通过 PAGECACHE_TRAG_WRITEBACK 标 记 正 在 往 磁 
盘 写 的 页 。 国 数 快 速 地 扫描 覆盖 给 定 线性 地 址 区 间 的 这 一 部 分 基 树 来 寻找 
PEG_writeback 标 志 置 位 的 页 。 国 数 调 用 wait_on_page_bit1() 使 其 中 每 一 页 睡眠， 
一 直到 PG_writepack 标 志清 0, 也 就 是 等 到 正在 进行 的 该 页 的 VO 数据 传输 结束 。 


8. ”释放 文件 的 信号 量 i_sem 并 返回 。 


非 线 性 内 存 映 射 

对 普通 文件 ，Linux 2.6 内 核 还 提供 一 个 访问 方法 ， 即 非 线性 内 存 映 射 。 非 线性 内 存 映 
射 基 本 上 还 是 前 面 所 述 的 文件 内 存 映射 , 但 它 的 内 存 页 映射 的 并 不 是 文件 的 顺序 页 , 而 
是 每 一 内 存 页 都 映射 的 是 文件 数据 的 随机 页 (任意 页 )。 


当然 ,一 个 用 户 态 应 用 每 次 针对 同一 文件 的 不 同 4096 字 节 部 分 重复 调用 mmap () 系 统 调 
用 ,也 可 以 得 到 同样 的 结果 。 然 而 ， 因 为 每 个 映射 需要 一 个 独立 的 线性 区 ， 所 以 这 种 方 
法 对 于 大 文件 的 非 线 性 映射 是 非常 低 效 的 。 


为 了 实现 非 线 性 映射 ， 内 核 使 用 了 另外 的 一 些 数据 结构 。 首 先 ， 线 性 区 描述 符 的 
VM_NONLINEAR 标志 用 于 表示 线性 区 存在 一 个 非 线性 映射 。 给 定 文件 的 所 有 非 线 性 映 
射线 性 区 描述 符 都 存放 在 一 个 双向 循环 链表 ， 读 链表 根植 于 address_space 对 象 的 


i_mmap_nonlinear 字段 。 


为 创建 一 个 非 线 性 内 存 映射 ， 用户 态 进程 首先 以 mmap() 系统 调 用 创建 一 个 常规 的 共享 
内 存 上 映射 。 应 用 然后 调用 remap_file_pages (} 来 重新 映射 内 存 上 映射 中 的 一 些 页 。 该 系 
统 调 用 的 sys_remap_file_pages{) 服务 例 程 有 下 面 几 个 参数 : 
start 
调用 进程 共享 文件 内 存 映 射 区 域内 的 线性 地 址 
Size 
文件 重新 映射 部 分 的 字 市 数 
Drot 
未 用 (必须 为 0) 
pogoft 
待 映 射 文件 初始 页 的 页 索引 
flags 


控制 非 线 性 映射 的 标志 
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该 服务 例 程 用 线性 地 址 start、 页 索引 pgoff 和 映射 尺寸 size 所 确定 的 文件 数据 部 分 
进行 重新 映射 。 如 果 线 性 区 非 共 享 或 不 能 容纳 要 映射 的 所 有 页 , 则 系统 调用 失败 并 返回 
错误 码 。 实 际 上 , 该 服 务 例 程 把 线性 区 插入 文件 的 1_mmap_nonlinear 链 表 ， 并 调用 该 
线性 区 的 pcopulate 方 法 。 


对 于 所 有 普通 文件 , populate 方 法 是 由 filemap_populate() 函 数 实现 的 。 它 执行 以 下 步骤: 


1， 检查 remap_file_pages() 系统 调用 的 flags 参 数 中 MAP_NONBLOCK 标 志 是 否 请 
0。 如 果 是 ， 则 调用 Go_page_cache_readahead() 预 读 待 映射 文件 的 页 。 


2. ”对 重新 映射 的 每 一 页 ， 执 行 下 列 步 又 ; 


a. 检查 页 描述 符 是 否 已 在 页 高 速 组 存 内 ， 如 果 不 在 且 MAP_NONBLOCK 未 置 位 ， 
那 从 磁盘 读 人 该 页 。 


b. 如 果 页 描述 符 在 页 高 速 缓存 内 , 它 将 更 新 对 应 线性 地 址 的 页 表 项 来 指 网 读 页 框 ， 
并 更 新 线性 区 描述 符 的 页 引用 计数 器 。 


c.， 否则 ,如 果 设 有 在 页 高 速 缓 存 内 找到 该 页 描述 符 , 它 将 文件 页 的 偏 移 量 存放 在 
该 线性 地 址 对 应 的 页 表 项 的 最 高 32 位， 并 将 页 表 项 的 Present 位 清 0, Dirty 
位 置 位 。 


正如 第 九 章 “ 请 求 调 页 ”一 节 所 述 ， 当 处 理 请 求 调 页 错误 时 ，handle_ Pte_faulc1() 国 
数 检查 页 表 项 的 Present 和 Dirty 位 。 如 果 它 们 的 值 对 应 一 个 非 线性 内 存 映 射 ， 则 
handle_ pte_fault 1() 调 用 do_file_page{) 范 数 ， 从 页 表 项 的 高 位 中 取出 所 请 求 文件 
页 的 索引 , 然后 ,do_file_page() 函数 调用 线性 区 的 populate 方 法 从 磁盘 读 入 页 并 更 
新 页 表 项 本 身 。 


因为 非 线 性 内 存 映射 的 内 存 页 是 按照 相对 于 文件 开始 处 的 页 索引 存放 在 页 高 速 缓存 中 ， 
而 不 是 按照 相对 于 线性 区 开始 处 的 索引 存放 的 ,所 以 非 线性 内 存 映射 刷新 到 磁盘 的 方式 
与 线性 内 存 映射 是 一 样 的 (参见 本 章 前 面 “把 内 存 映 射 的 脏 页 刷新 到 磁盘 ”一 节 )。 


直接 VO 传送 


我 们 已 经 看 到 , 在 Linux 2.6 版 本 中 , 通过 文件 系统 与 通过 引用 基本 块 设备 文件 上 的 块 ， 
甚至 与 通过 建立 文件 内 存 映射 访问 一 个 普通 文件 之 间 没 有 什么 本 质 的 差异 。 但是, 还 是 
有 一 些 非常 复杂 的 程序 ( 自 缓存 的 应 用 程序 ，self-caching application) 更 愿意 具有 控 
制 IO 数据 传送 机 制 的 全 部 权力 。 例 如 ， 考 虑 高 性 能 数据 库 服 务 器 : 它们 大 都 实现 了 自 
己 的 高 速 缓存 机 制 , 以 充分 挖 拥 对 数据 库 独特 的 查询 机 制 。 对 于 这 些 类 型 的 程序 ,内核 
页 高 速 缓存 毫 无 帮助 ， 相反 ， 因 为 以 下 原因 它 可 能 是 有 害 的 : 


BI 





， 很 多 页 框 浪费 在 复制 已 在 RAM 中 的 磁盘 数据 上 〈 在 用 户 级 磁盘 高 速 缓存 中 ) 。 


*。 处理 页 高 速 缓存 和 预 读 的 多 余 指令 降低 了 read() 和 write() 系 统 调用 的 执行 效率 ， 
也 降低 了 与 文件 内 存 映射 相关 的 分 页 操作 。 


。 read() 和 write() 系 统 调 用 不 是 在 磁盘 和 用 户 存储 器 之 间 直 接 传送 数据 ， 而 是 分 
两 次 传送 : 在 磁盘 和 内 核 缓 冲 区 之 间 和 在 内 核 缓冲 区 与 用 户 存储 器 之 间 。 


因为 必须 通过 中 断 和 直接 内 存 访问 (DMA) 处 理 块 硬件 设备 ， 而 且 这 只 能 在 内 核 态 完 
成 ， 因 此 ， 最 终 需 要 某 种 内 核 支持 来 实现 自 缓 存 的 应 用 程序 。 


Linux 提供 了 绕 过 页 高 速 缓存 的 简单 方法 : 直接 IO 传送。 在 每 次 IO 直接 传送 中 , 内 核 
对 磁盘 控制 器 进行 编程 ,以 便 在 自 缓存 的 应 用 程序 的 用 户 态 地 址 空间 中 的 页 与 磁盘 之 间 
直接 传送 数据 。 


我 们 知道 ,任何 数据 传送 都 是 异步 进行 的 。 当 数据 传送 正在 进行 时 , 内核 可 能 切换 当前 
进程 ，CPU 可 能 返回 到 用 户 态 , 产生 数据 传送 的 进程 的 页 可 能 被 交换 出 去 , 等 等 。 这 对 
于 普通 IO 数据 传送 没有 什么 影响 ,因为 它们 涉及 磁盘 高 速 缓存 中 的 页 ， 磁盘 高 速 缓存 
由 内 核 拥 有 ， 不 能 被 换 出 去 ， 并 且 对 内 核 态 的 所 有 进程 都 是 可 见 的 。 


男 一 方面 ,直接 WO 传送 应 当 在 给 定 进程 的 用 户 态 地 址 空间 的 页 内 移动 数据 。 内 核 必须 
当心 这 些 页 是 由 内 核 态 的 任 一 进程 访问 的 , 当 数 据 传 送 正 在 进行 时 不 能 把 它们 交换 出 去 。 
让 我 们 看 看 这 是 如 何 实 现 的 。 


当 自 缓存 的 应 用 程序 要 直接 访问 文件 时 ， 它 以 0_DIRECT 标志 置 位 的 方式 打开 文件 ( 参 
见 第 十 二 章 “open() 系 统 调用 ”一 节 )。 在 运行 open1) 系 统 调用 时 ，dqentry_open() 国 数 
检查 打开 文件 的 aadqress_space 对 象 是否 有 已 实现 的 airect_IO 方 法 ， 如 果 没 有 则 返回 
错误 码 。 对 一 个 已 打开 的 文件 也 可 以 由 fcnt11) 系统 调 用 的 F_SETFL 命 令 把 0_DIRECT 
置 位 。 


让 我 们 首先 看 第 一 种 情况 ,这 里 自 缓存 应 用 程序 对 一 个 以 0_DIRECT 标 志 置 位 的 方式 打 
开 的 文件 调用 read() 系 统 调 用 。 在 本 章 前 面 “ 从 文件 中 读 取 数据 ”一 节 提 到 过 ， 文 件 
的 read 方 法 通常 是 由 generic_file_readl() 国 数 实现 的 , 它 初始 化 iovec 和 kiocb 描 
述 符 并 调用 __generic_file_aio_read()。 后 面 这 个 函数 检查 ijovec 描 述 符 描述 的 用 
户 态 绥 冲 区 是 否 有 效 ， 然 后 检查 文件 的 0_DIRECT 标 志 是 否 置 位 。 当 被 read() 调 用 时 ， 
该 国 数 执行 的 代码 段 实 际 上 等 效 于 下 面 的 代码 : 
if {filp->f_flags & O_DIRECT) { 
if (count == 0 || *ppos > filp->f_mapping->host->i_ size) 
return DD: 


retval = generic_file direct_IO(READ, iocb, iov, *ppos, 1):; 
if titretval > 0) 





四 也 口 += retval; 
file accessed(filp). 
return retval:; 

} 


国 数 检查 文件 指针 的 当前 值 、 文 件 大 小 与 请 求 的 字符 数 ， 然 后 调用 
generic_file airect_IOI) 国 数 ， 传 给 它 REaAD 操作 类 型 、iocb 描 述 符 、iovec 描 述 
符 、 文 件 指 针 的 当前 值 以 及 io _vec 描述 符 中 指定 的 用 户 态 缓冲 区 号 (1)。 当 
generic file direct_IO{) 结 束 时 ,_ _generic_file aio_read() 更 新 文件 指针 , 设 
置 对 文件 索引 节点 的 访问 时 间 规 ， 然 后 返回 ， 


对 一 个 以 0_DIRECT 标 志 置 位 打开 的 文件 调用 write() 系 统 调用 时 , 情况 类 似 。 在 本 章 
前 面 “ 写 入 文件 ”一 节 讲 到 过 , 文件 的 write 方 法 就 是 调用 generic file aio write_ 
nolock()。 该 函数 检查 0_DIRECT 标志 是 否 置 位 ， 如 果 置 位 ， 则 调用 generic_file_ 
qirect_IO() 国 数 ， 而 这 次 限定 的 是 wRITE 操作 类 型 。 


Generic_file Qirect_IOI) 国 数 有 以 下 参数 : 

rw 
操作 类 型 : READ 或 WRITE 

人 
kiocb 描 述 符 指针 (参见 表 16-1 ) 

10V | 
iove 描述 符 数 组 指针 (参见 本 章 前 面 “ 从 文件 中 读 取 数据 ”一 节 ) 

Offset 
文件 偏 移 量 

nr_segs 
iov 数组 中 iovec 描述 符 数 

genetric_file airect_Ioft) 国 数 的 执行 步骤 如 下 : 

1. 从 kiocp 描 述 符 的 ki_filp 字 7 段 得 到 文件 对 象 的 地 址 file, 从 file->f_mapping 
字段 得 到 address_space 对 象 的 地 址 mapping。 

2. 如 果 操 作 类 型 为 WRITE， 而 且 一 个 或 多 个 进程 已 创建 了 与 文件 的 某 个 部 分 关联 的 
内 存 映射 ， 那 么 它 调用 unmap_mapping_range() 取 消 该 文件 所 有 页 的 内 存 映 射 。 
如 果 任 何 取消 映射 的 页 所 对 应 的 页 表 项 ， 其 Dirty 位 置 位 ， 则 该 函数 也 确保 它 在 
页 高 速 缓存 内 的 相应 页 被 标记 为 脏 。 

3. ”如 果 根 植 于 mapping 的 基 树 不 为 空 (mapping->nrpages 大 于 0)， 则 调用 
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filemap fdatawrite(} 和 filemap_fdatawait(}) 函 数 刷 新 所 有 脏 页 到 磁盘 ， 并 
等 待 W/O 操作 结束 (参见 本 章 前 面 “ 把 内 存 映 射 的 及 页 刷新 到 磁盘 ”一 节 )。( 即 使 
自 缓存 应 用 程序 是 直接 访问 文件 的 ， 系 统 中 还 可 能 有 通过 页 高 速 缓存 访问 文件 的 
其 他 应 用 程序 。 为 了 避免 数据 的 丢失 ,在 局 动 直接 LI/O 传送 之 前 ， 磁 盘 映 像 要 与 页 
高 速 缓存 进行 同步 )。 

4. ”调用 mapping 地 址 空间 的 direct_I0 方 法 (参见 下 面 的 段 莫 )。 


5. 如果 操作 类 型 为 WRITE， 则 调用 invalidate_inode_pages21() 扫 描 mapping 基 
树 中 的 所 有 页 并 释放 它们 。 读 国 数 同时 也 清 室 指向 这 些 页 的 用 户 态 页 表 项 。 


大 多 数 情况 下 , direct_IO 方 法 都 是 __blockdev_dqirect_IO() 国 数 的 封装 国 数 。 这 个 
国 数 相当 复杂 , 它 调 用 大 量 的 辅助 数据 结构 和 国 数 , 但 是 实际 上 它 所 执行 的 操作 与 本 章 
所 描述 的 操作 一 样 : 对 存放 在 相应 块 中 要 读 或 写 的 数据 进行 拆 分 , 确定 数据 在 磁盘 上 的 
位 置 ， 并 添加 一 个 或 多 个 用 于 描述 要 进行 的 IO 操作 的 bio 描述 符 。 当 然 ， 数 据 将 被 直 
接 从 iov 数 组 中 iovec 描 述 符 确定 的 用 户 态 缓冲 区 读 写 。 调用 submit_bio() 函 数 将 bio 
描述 符 提交 给 通用 块 层 (参见 第 十 五 章 “ 向 通用 块 层 提 交 缓 冲 区 首部 ”一 节 )。 通 常情 
况 下 , __blockdev_qdirect_IO0() 国 数 并 不 立即 返回 ,而 是 等 所 有 的 直接 IO 传送 都 已 
完成 才 返 回 ， 因此 ,一旦 read() 或 write() 系 统 调 用 返回 ， 自 缓存 应 用 程序 就 可 以 安 
全 地 访问 含有 文件 数据 的 缓 促 区 。 


异步 MO 


POSIX 1003.1 标准 为 异步 方式 访问 文件 定义 了 一 套 库 函 数 (如 表 16-4 所 示 )。 “异步 
实际 上 就 是 : 当 用 户 态 进程 调用 库 函 数 读 写 文件 时 ,一旦 读 写 操作 进入 队列 国 数 就 结束 ， 
甚至 有 可 能 真正 的 IO 数据 传输 还 没有 开始 。 这 样 调用 进程 可 以 在 数据 正在 传输 时 继续 
自己 的 运行 。 


表 16-4:， 异步 MO 的 POSIX 库 函 数 


函数 说 明 

aio_read () 从 文件 异步 读数 据 

aio_writel) 向 文件 异步 写 数据 

aicD_fswvnc () 请 求 刷 新 所 有 正在 运行 的 异步 IO 操作 (不 阻塞 ) 
aio_error () 获得 正在 运行 的 异步 IO 操作 的 错误 代码 
aio_return() 获得 一 个 已 完成 异步 IO 操作 的 返回 码 
aio_cancel ()} 取消 正在 运行 的 异步 1/O 操作 


060 弟 十 六 章 
使 用 异步 1O 很 简单 ,应 用 程序 还 是 通过 cpen1) 系 统 调 用 打开 文件 , 然后 用 描述 请 求 操 
作 的 信息 填充 struct aiocb 类 型 的 控制 块 。struct aiocb 控 制 块 最 常用 的 字段 有 : 


aio fildes 


文件 的 文件 描述 符 (由 open() 系 统 调用 返回 ) 


alio_but 

文件 数据 的 用 户 态 缓冲 区 
alio_nbytes 

待 传输 的 字 市 数 
alilo_offset 


读 写 操作 在 文件 中 的 起 始 位 置 (与 “同步 ”文件 指针 无 关 ) 


最 后 ， 应 用 程序 将 控制 块 地 址 传 给 aio_read{) 或 aio_write()。 一旦 请 求 的 1/0 数据 
传输 已 由 系统 库 或 内 核 送 进 队 列 ， 这 两 个 国 数 就 结束 。 应 用 程序 稍 后 可 以 调用 
aio_error({) 检 查 正在 运行 的 1/0 操作 的 状态 。 如 数据 传输 仍 在 进行 当中 ， 则 返回 
EINPROGRESS4: 如果 成 功 完成 , 则 返回 0, 如果 失 败 , 则 返回 一 个 错误 码 .aio_return () 
国 数 返 回 已 完成 异步 IO 操作 的 有 效 读 写字 节 数 ， 或 者 如 果 失 败 ， 返 回 一 1。 


Linux 2.6 中 的 异步 MO 


异步 10 可 以 由 系统 库 实现 而 完全 不 需要 内 核 支 持 。 实际 上 aio_read() 或 aio_write() 
库 函 数 克 隆 当 前 进程 ， 让 子 进程 调用 同步 的 read() 或 write |) 系统 调用 ， 然 后 父 进程 
结束 aio_read() 或 aio_write() 函 数 并 继续 程序 的 执行 。 因此 ， 它 不 用 等 待 由 子 进程 
启动 的 同步 操作 完成 。 但 是 , 这 个 “穷人 版 ”POSIX 函数 比 内 核 屋 实现 的 异步 IO 要 慢 
很 多 。 


Linux 2.6 内 棱 版 运用 一 组 系统 调用 实现 异步 1O, 但 在 Linux 2.6.11 中 ， 这 个 功能 还 在 
实现 中 ,异步 WO 只 能 用 于 打开 O_DIRECT 标 志 置 位 的 文件 ( 见 上 一 节 )。 表 16-5 列 出 
了 异步 IO 的 系统 调用 。 


表 16-5， 异步 1/O 的 Linux 系统 调用 


系统 调用 说 明 

io_setup(】 为 当前 进程 初始 化 一 个 异步 环境 
io_submit {) 提交 一 个 或 多 个 异步 IO 操作 
io_getevents () 获得 正在 运行 的 异步 /0 操作 的 完成 状态 
io_cancel () 取消 一 个 正在 运行 的 异步 MO 操作 


io_destroy |) 删除 当前 进程 的 异步 环境 


Ee 


WO 


异步 1/O 环境 
如 果 一 个 用 户 态 进程 调用 ie_supmit () 系统 调用 开始 异步 LO 操作 ,那么 它 必须 预先 创 
建 一 个 异步 IO 环境 。 


基本 上 ， 一 个 异步 IO 环境 (简称 AIO 环境 ) 就 是 一 组 数据 结构 ， 这 个 数据 结构 用 于 跟 
踪 进程 请 求 的 异步 1/O 操作 的 运行 情况 。 每 个 AIO 环境 与 一 个 kioctx 对象 关联 ， 它 存 
放 了 与 该 环境 有 关 的 所 有 信息 。 一 个 应 用 可 以 创建 多 个 AIO 环 境 。 一 个 给 定 进程 的 所 有 
的 kioctx 描 述 符 存 放 在 一 个 单 向 链表 中 ， 该 链表 位 于 内 存 描述 符 的 ioctx_list 字段 
(参见 第 九 章 中 的 表 9-2)。 


我 们 不 再 详细 讨论 kioctx 对 象 。 但 是 我 们 应 当 往 意 一 个 kioctx 对 象 使 用 的 重要 的 数据 
结构 : AIO 环 。 


AIO 环 是 用 户 态 进程 中 地 址 空间 的 内 存 缓冲 区 ， 它 也 可 以 由 内 核 态 的 所 有 进程 访问 。 
Kioctx 对 象 中 的 ring_infto.mmap_base 和 Tring_info.mmap_size 字 段 分 别 存 放 AIO 环 
的 用 户 态 起 始 地 址 和 长 度 。ring_info.ring_pages 字 7 段 则 存放 有 一 个 数组 指针 , 读数 
组 存放 所 有 含 AIO 环 的 页 框 的 描述 符 。 


AIO 环 实际 上 是 一 个 环形 缓冲 区 , 内 核 用 它 来 写 正 运行 的 异步 VO 操 作 的 完成 报告 .AIO 
环 的 第 一 个 字 节 有 一 个 首部 (struct aio_ring 数据 结构 ) ,后 面 的 所 有 字 节 是 io_event 
数据 结构 ,每 个 都 表示 一 个 已 完成 的 异步 IO 操作 。 因 为 AIO 环 的 页 映射 至 进程 的 用 户 
态 地 址 空间 ， 应 用 可 以 直接 检查 正 运行 的 异步 IO 操作 的 情况 ， 从 而 避免 使 用 相对 较 慢 
的 系统 调用 。 


io_setup() 系 统 调用 为 调用 进程 创建 一 个 新 的 AIO 环境 。 它 有 两 个 参数 ， 正在 运行 的 
异步 IO 操作 的 最 大 数目 (这 将 确定 AIO 环 的 大 小 ) 和 一 个 存放 环境 句柄 的 变量 指针 。 
这 个 句柄 也 是 AIO 环 的 基地 址 。sys_io_setup() 服 务 例 程 实际 上 是 调用 do_mmap() 为 
进程 分 配 一 个 存放 AIO 环 的 新 匿名 线性 区 (参见 第 九 章 “分 配 线性 地 址 区 间 ” 一 节 ), 然 
后 创建 和 初始 化 描述 该 AIO 环境 的 kioccx 对 象 。 


相反 地 ，io_destroy () 系 统 调 用 删除 AIO 环境 , 还 删除 含有 对 应 AIO 环 的 匿名 线性 区 。 
这 个 系统 调用 阻塞 当前 进程 直到 所 有 正在 运行 的 异步 MO 操作 结束 。 


提交 异步 VO 操作 
为 开始 异步 1O 操作 ， 应 用 要 调用 io_submit () 系 统 调用 。 该 系统 调用 有 三 个 参数 : 


ctx_id 


由 io_setup() (标识 AIO 环境 ) 返回 的 句柄 





l1ochpp 
iocb 类 型 描述 符 的 指针 数组 的 地 址 ， 其 中 描述 符 的 每 项 描述 一 个 异步 IO 操作 


iocbpp 指向 的 数组 长 度 


iocp 数据 结构 与 POSIX aiocb 描述 符 有 同样 的 字段 aio_fildes. aio_buf.、 
aio nbytes, aio_offset, 另外 还 有 aio_1lio_opcode 字 段 存放 请 求 操作 的 类 型 (典型 
地 有 ;:; read、write 或 sync)。 


sys_io_submit () 服 务 例 程 执 行 下 列 步 又 : 


1. 验证 iocb 拉 述 符 数 组 的 有 效 性 。 


2. 在 内 存 描述 符 的 ioccx_l1ist 字 段 所 对 应 的 链表 中 查找 ctx_ida 句 柄 对 应 的 kioctx 
对 象 。 


3. ”对 数组 中 的 每 一 个 iocb 描述 符 ， 执 行 下 列子 步骤 : 
a， 获得 aio_fildes 字段 中 的 文件 描述 符 对 应 的 文件 对 象 地 址 。 
b.， 为 该 1/0O 操作 分 配 和 初始 化 一 个 新 的 kiocb 摘 述 符 。 
c. 检查 AIO 环 中 是 否 有 空闲 位 置 来 存放 操作 的 完成 情况 。 
d. 根据 操作 类 型 设置 kiocb 描述 符 的 ki_retry 方法 ( 见 下 面 )。 


e， 执行 aio_run_iocb() 函 数 , 它 实 际 上 调用 ki_retry 方 法 为 相应 的 异步 10 操 
作 启 动 数 据 传输 。 如果 ki_retry 方 法 返回 -EIOCBRETRY, 则 表示 异步 1O 操 作 
已 提交 但 还 没有 完全 成 功 ， 稍 后 在 这 个 kiocb 上 ，aio_run_iocb(}) 函 数 会 被 
再 次 调用 ( 见 下 面 )， 否则 , 调用 aio_complete()，, 为 异步 /10 操作 在 AIO 环 
境 的 环 中 追加 完成 事件 。 


如 果 异 步 I/O 操作 是 一 个 读 请 求 ， 那 么 对 应 kiocp 描述 和 罕 的 ki_retry 方法 是 由 
aio_pread() 实 现 的 。 该 函数 实际 上 执行 的 是 文件 对 象 的 aio_read 方 法 ， 然 后 按照 
aio_read 方 法 的 返回 值 更 新 kiocb 描 述 符 的 ki_buf 和 ki_left 字段 (参见 本 章 前 面 
的 表 16-1)。 最 后 aio_pread() 返 回 从 文件 读 人 的 有 效 字 节 数 ， 或 者 ， 如 果 国 数 确 定 请 
求 的 字 节 没有 传输 完 ， 则 返回 -EIOCBRETRY。 对 于 大 部 分 文件 系统 ， 文 件 对 象 的 
aio_read 方 法 就 是 调用 __generic file aio_read() 函 数 , 假如 文件 的 0O_DIRECT 标 
志 置 位 ， 函数 就 调用 generic_file_direct_I01() 函 数 , 这 在 上 一 节 描 述 过 。 但 在 这 种 
情况 下 ,__blockqev_direct_IO() 国 数 不 是 阻塞 当前 进程 使 之 等 待 MO 数 据 传输 完毕 ， 
而 是 立即 返回 。 因 为 异步 IO 操作 仍 在 运行 ,aio_run_iocb() 会 被 再 次 调用 , 而 这 一 次 
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的 调用 者 是 aio_wq 工 作 队 列 的 aio 内核 线程 。kiocb 描 述 符 跟 踪 1/0 数据 传输 的 运行 。 
终于 所 有 数据 传输 完毕 ， 将 完成 结果 追加 到 AIO 环 。 


类 似 地 ,如 果 异 步 10 操 作 是 一 个 写 请 求 , 那么 对 应 kiocb 描 述 符 的 ki_retry 方 法 是 由 
aio_pwrite{) 实 现 的。 该 函数 实际 上 执行 的 是 文件 对 象 的 aio_write 方 法 ， 然 后 按照 
aio_write 方 法 的 返回 值 更 新 kiocb 描 述 符 的 ki_buf 和 ki_left 字段 (参见 本 章 前 面 
的 表 16-1)。 最 后 aic_pwrite() 返 回 写 人 文件 的 有 效 字 节 数 , 或 者 , 如果 国 数 确定 请 求 
的 字 节 没有 完全 传输 完 ， 则 返回 -EIOCBRETRY。 对 于 大 部 分 文件 系统 ， 文 件 对 象 的 
aio_write 方 法 就 是 调用 generic_file_aio write_nolock() 函数 。 假 如 文件 的 
0_DIRECT 标 志 置 位 , 跟 上 面 一 样 ,函数 就 调用 generic_file_direct_I01) 函数 ， 





在 前 面 的 章节 中 , 我 们 说 明了 内 核 如 何 通 过 记录 空间 和 占用 的 页 框 来 处 理 动态 内 存 。 我 
们 还 讨论 了 用 户 态 的 每 个 进程 怎样 拥有 自己 的 线性 地 址 空间 ,又 是 怎样 以 每 次 一 页 的 方 
式 得 到 所 请 求 的 内 存 , 以 及 如 何在 万 不 得 已 时 才 把 页 框 分 配给 进程 。 最 后 ， 我 们 也 讨论 
了 如 何 使 用 动态 内 存 实 现 内 存 与 磁盘 高 速 缓存 。 


在 本 章 , 我 们 通过 讨论 页 框 的 回收 完成 对 虚拟 内 存 子 系统 的 描述 。 在 第 一 节 “ 页 框 回收 
算法 ”中 ,我们 阐述 了 内 核 回 收 页 框 的 原因 与 策略 ， 然后 在 “ 反 向 映射 ”一 市 做 一 个 技 
术 补 充 , 介绍 了 内 核 使 用 的 一 种 数据 结构 , 借助 这 个 结构 ， 内核 可 以 快速 定位 指向 同一 
个 页 框 的 所 有 页 表 项 ， 而 “PFRA 实现 ”一 节 则 介绍 Linux 使 用 的 页 框 回收 算法 ， 最 后 
一 节 “ 交 换 ”， 几 乎 可 以 自 成 一 章 ， 这 一 节 讲 述 了 交换 子 系统 ， 它 是 将 匿名 页 (并非 文 
件 的 映射 数据 ) 保存 到 磁盘 的 内 核 部 件 。 


页 框 回收 算法 


Linux 中 有 一 点 很 有 意思 ,在 为 用 户 态 进程 与 内 核 分 配 动态 内 存 时 ， 所 作 的 检查 是 马 马 
虎 虎 的 。 


比如 ， 对 单个 用 户 所 创建 进程 的 RAM 使 用 总 量 并 不 作 严 格 检查 (第 三 章 的 “进程 资源 
限制 ”一 布 提 到 的 限制 只 针对 单个 进程 )， 对 内 核 使 用 的 许多 磁盘 高 速 缓存 和 内 存 高 速 
缓存 大 小 也 同样 不 作 限制 。 

减少 控制 是 一 种 设计 选择 ,这 使 内 核 以 最 好 的 可 行 方式 使 用 可 用 的 RAM.。 当 系 统 负载 较 
低 时 ，RAM 的 大 部 分 由 磁盘 高 速 缓存 占用 , 很 少 正 在 运行 的 进程 可 以 从 中 获 益 。 但是， 
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当 系 统 负载 增加 时 ,RAM 的 大 部 分 则 由 进程 页 占用 ,高 速 缓存 就 会 缩小 从 而 给 后 来 的 进 
程 让 出 空间 。 


我 们 在 前 面 的 章节 中 看 到 ,内 存 及 磁盘 高 速 绪 存 抓 取 了 那么 多 的 页 框 但 从 未 释放 任何 页 
框 。 这 是 合理 的 ， 因 为 高 速 绥 存 系统 并 不 知道 进程 是 否 (什么 时 候 ) 会 重新 使 用 某 些 组 
存 的 数据 ， 因 此 不 能 确定 高 速 缓存 的 哪些 部 分 应 该 释放 。 此 外 , 正 是 有 了 第 九 章 描 述 的 
请 求 调 页 机 制 ， 只 要 用 户 态 进程 继续 执行 ， 它们 就 能 获得 页 框 ; 然而 , 请 求 调 页 没有 办 
法 强制 进程 释放 不 再 使 用 的 页 框 。 


因此 , 迟早 所 有 空闲 内 存 将 被 分 配给 进程 和 高 速 缓存 。 Linux 内核 的 页 框 回收 算法 (page 
frame reclaiming algorithm, PFRA) 采取 从 用 户 态 进程 和 内 核 高速 缓存 “窃取 ”页 框 
的 办 法 补充 伙伴 系统 的 空闲 块 列表 。 


实际 上 , 在 用 完 所 有 空间 内 存 之 前 ,就 必须 执行 页 框 回 收 算 法 。 人 否则， 内 核 很 可 能 陷入 
一 种 内 存 请求 的 僵局 中 ,并 导致 系统 贿 潢 。 也 就 是 说 ， 要 释放 一 个 页 框 ， 内核 就 必须 把 
页 框 的 数据 写 和 磁盘， 但 是 ,为 了 完成 这 一 操作 ， 内 核 却 要 请 求 另 一 个 页 框 ( 例 如， 为 
IO 数据 传送 分 配 缓冲 区 首部 )。 因 为 不 存在 空闲 页 框 ， 因 此 ， 不 可 能 释放 页 框 。 


页 框 回收 算法 的 目标 之 一 加 是 保存 最 少 的 空 亲 页 框 字 以 便 内 核 可 以 安全 地 从 内 存 紧缺 “ 
的 情形 中 恢复 过 来 。 


选择 目标 页 

页 框 回 收 算法 (PFRA) 的 目标 就 是 获得 页 框 并 使 之 空间 。 显然 ,， PFRA 选取 的 页 框 肯定 

en 即 这 些 页 框 原本 不 在 伙伴 系统 的 任何 一 个 free_area 数 组 中 (参见 第 八 章 
的 “伙伴 系统 算法 ”一 市 )。 


PFRA 按 照 页 框 所 含 内 容 , 以 不 同 的 方式 处 理 页 框 。 我们 将 它们 区 分 成 : 不 可 回收 页 、 可 
交换 页 、 可 同步 页 和 可 丢弃 页 ， 如 表 17-1 所 示 。 


表 17-1，PFRA 处 理 的 页 框 类 型 


页 类 型 说 明 回收 操作 
空闲 页 (包含 在 伙伴 系统 列表 中 ) 
保留 页 {PG_reserved 标 志 置 位 ) i 

cy 内 核 动态 分 配 页 | 

不 可 回收 页 进程 内 核 态 堆栈 页 ] (不 允许 也 无 需 回收 ) 
临时 锁定 页 (PG_locked 标 志 置 位 ) y| 


内 存 锁定 页 (在 线性 区 中 且 VM_LOCKED 标志 置 位 





表 17-1: PFRA 处 理 的 页 框 类 型 ( 续 ) 
页 类 型 ”| 说 明 
可 交换 页 | 用 户 态 地 址 空间 的 匿名 页 


| 回收 操作 























| tmpfs 文件 系统 的 映射 页 (如 IPC 共享 内 存 的 页 ) | 换 区 
用 户 态 地址 空间 的 映射 页 

可 同步 页 | 存 有 磁盘 文件 数据 且 在 页 高 速 缓存 中 的 页 必要 时 ， 与 磁盘 映像 
块 设备 缓冲 区 页 同步 这 些 页 


一 一 一 一 一 一 


目录 项 高 速 缓存 的 未 使 用 页 


在 表 17-1 中 ， 所 谓 “ 映 射 页 ”是 指 该 页 映射 了 一 个 文件 的 某 个 部 分 。 比 如 ， 属 于 文件 内 
存 映 射 的 用 户 态 地 址 空间 中 所 有 页 都 是 映射 页 ,页 高 速 缓存 中 的 任何 其 他 页 也 是 映射 页 。 
映射 页 差不多 都 是 可 同步 的 : 为 回收 页 框 , 内核 必须 检查 页 是 否 为 胜 , 而 且 必 要 时 将 页 
的 内 容 写 到 相应 的 磁盘 文件 中 。 


相反 ,所谓 的 “匿名 页 ”是 指 它 属 于 一 个 进程 的 某 匿名 线性 区 ( 倒 如 ， 进 程 的 用 户 态 堆 和 
堆栈 中 的 所 有 页 为 匿名 页 )。 为 回收 页 框 ,内 核 必 须 将 页 中 内 容 保 存 到 一 个 专门 的 磁盘 分 区 
或 磁盘 文件 , 岂 做 “交换 区 ”( 参 见 后 面 “ 交 换 ” 一 市 )。 因此, 所 有 匿名 页 都 是 可 交换 的 。 


通常 ， 特 殊 文件 系统 中 的 页 是 不 可 回收 的 。 唯 一 的 例外 是 impjs 特殊 文件 系统 的 页 ， 它 
可 以 被 保存 在 交换 区 后 被 回收 。 在 第 十 九 章 中 我 们 将 看 到 tmpfs 特殊 文件 系统 用 于 IPC 
共享 内 存 机 制 。 


当 PFRA 必 须 回收 属于 某 进程 用 户 态 地 址 空间 的 页 框 时 , 它 必 须 考 虑 页 框 是 否 为 共享 的 。 
共享 页 框 属于 多 个 用 户 态 地 址 空间 ， 而 非 共享 页 框 属于 单个 用 户 态 地 址 空间 。 注意 , 非 
共享 页 框 可 能 属于 几 个 轻 量 级 进程 ， 这 些 进 程 使 用 同一 个 内 存 擅 述 符 。 


当 进 程 创建 子 进程 时 ， 就 建立 了 共享 页 框 。 正 如 第 九 章 “ 写 时 复制 ”一 节 所 述 ， 子 进程 
页 表 都 从 父 进程 中 复制 过 来 的 , 父子 进程 因此 共享 同一 个 页 框 。 共 享 页 框 的 另 一 个 常见 
情形 是 : 一 个 或 多 个 进程 以 共享 内 存 映射 的 方式 访问 同一 个 文件 (参见 第 十 六 章 的 “内 
存 映 射 ” 一 而 ) ( 注 1)。 


证 下: 应 该 注意 的 是 ,尽管 如 此 ， 当 一 个 单独 的 进程 通过 共享 内 丰 且 射 膏 问 文件 时 ， 相 应 的 页 
对 PFRA 来 说 却 是 非 共 享 的 , 同样 , PFRA 可 能 把 属于 私有 内 存 映 射 的 页 作为 共享 页 ( 例 
如 : 两 个 文件 读 同 一 个 文件 的 某 个 部 分 ， 但 都 不 舍 改 这 部 分 的 数据 所 在 页 的 内 容 )， 


加 于 和 OO 


PFRA 设计 

尽管 很 容易 确定 回收 内 存 的 候选 页 (粗略 地 说 , 任何 属于 磁盘 和 内 存 高 速 缓 存 的 页 ， 以 
及 属于 进程 用 户 态 地 址 空间 的 页 ) ， 但 是 选择 合适 的 目标 页 可 能 是 内 核 设 计 中 最 精巧 的 
上 问题。 


事实 上 ,对 处 理 虚 拟 内 存 子 系统 的 开发 者 来 说 ,其 最 难 的 工作 在 于 找到 一 种 合适 的 算法 ， 
这 种 算法 既 能 确保 台式 计算 机 有 可 接受 的 性 能 (在 这 种 计算 机 上 内 存 的 需要 是 相当 有 限 
的 ， 而 对 系统 响应 的 要 求 则 是 十 分 严格 的 ) ， 也 能 确保 像 大 型 数据 库 服务 器 那样 的 高 级 
计算 机 有 可 接受 的 性 能 (在 这 种 计算 机 上 对 内 存 的 需要 则 巨大 无 比 )。 


不 幸 的 是 ,找到 一 种 较 佳 的 页 框 回 收 算法 是 一 种 相当 经 验 性 的 工作 ,很 少 有 理论 的 支持 。 
这 种 情形 类 似 于 对 决定 进程 动态 优先 级 的 因素 进行 评估 :主要 目的 是 调整 参数 以 达到 较 
好 的 性 能 ， 不 要 问 太 多 的 为 什么 。 通 常情 况 下 , 这 仅仅 是 “让 我 们 试 一 试 这 种 方法 ， 看 
看 会 发 生 什 么 …… ”这 么 回 事 。 这 种 经 验 主义 方法 的 负面 效果 就 是 代码 变化 快 。 因此 我 
们 无 法 保证 : 在 你 阅读 本 章 时 , 这 里 讲 的 Linux 2.6.11 使 用 的 内 存 回 收 算法 与 Linux 2.6 
的 最 新 版 本 中 所 使 用 的 内 存 回收 算法 完全 一 致 。 但 是 , 这 里 所 讲 的 一 般 原 则 和 主要 的 启 
发 式 准 则 还 会 继续 使 用 。 


一 叶 障 目 ， 不 见 泰山 。 因 此 ， 让 我 们 先 看 看 PFRA 采用 的 几 个 总 的 原则 ， 这 些 原则 包含 
在 本 章 后 面 介 绍 的 几 个 国 数 中 。 


计 先 娠 放 “无敌” 页 
在 进程 用 户 态 地 址 空间 的 页 回收 之 前 ,必须 先 回收 没有 被 任何 进程 使 用 的 磁盘 与 内 
存 高 速 缓 存 中 的 页 。 实 际 上 ,回收 磁盘 与 内 存 高 速 缓存 的 页 框 并 不 需要 修改 任何 页 
表 项 。 我 们 在 本 章 后 面 “ 最 近 最 少 使 用 (LRU) 链表 ”一 节 会 看 到 ,在 使 用 “交换 
倾 癌 因子 (swap tendency factor) ”后 ， 这 个 准则 可 以 做 出 一 些 调整 。 


将 用 户 术 进 答 的 所 有 页 定 为 可 辐 收 页 
除了 锁定 页 ，FPRA 必须 能 够 窃 得 任何 用 户 态 进程 页 ， 包 括 匿 名 页 。 这 样 ， 睡 眠 较 
长 时 间 的 进程 将 逐 商 失去 所 有 页 框 。 

同时 取消 3| 用 一 个 共享 页 框 的 所 有 页 表 项 有 的 映射， 就 可 以 回收 读 共 享 页 框 
当 PFRA 要 释放 几 个 进程 共享 的 页 框 时 , 它 就 清空 引用 该 页 框 的 所 有 页 表 项 , 然后 
回收 该 页 框 。 

只 回收 “ 款 爵 ” 质 
使 用 简化 的 最 近 最 少 使 用 (Least Recently Used，LRU) 置换 算法 ，PFRA 将 页 分 
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为 “在 用 (in_use)” 与 “未 用 (unused)”( 注 2)。 如 果 某 页 很 长 时 间 没 有 被 访问 ， 
那么 它 将 来 被 访问 的 可 能 性 较 小 , 就 可 以 将 它 看 作 未 用 ; 另 一 方面 , 如 果 某 页 最 近 
被 访问 过 ,那么 它 将 来 被 访问 的 可 能 性 较 大 , 就 必须 将 它 看 作 在 用 。PFRA 只 回收 
未 用 页 。 这 就 是 第 二 章 中 “硬件 高 速 缓 存 ” 一 节 所 讲 局 部 性 原则 的 另 一 个 应 用 。 


LRU 算法 的 主要 思想 就 是 用 一 个 计数 器 来 存放 RAM 中 每 一 页 的 页 年 龄 , 即 上 一 次 访问 
该 页 到 现在 已 经 过 的 时 间 。 这 个 计数 器 可 使 PFRA 只 回收 任何 进程 的 最 旧 页 。 一些 计算 
机 平台 提供 较为 成 熟 的 LRU 算法 ( 注 3)。 不 幸 的 是 ,， 80x86 处理 器 不 提供 这 样 的 硬件 功 
能 ， 因 此 Linux 内 核 不 能 依赖 页 计数 器 记录 每 页 的 页 年 龄 。 为 解决 这 一 问题 ，Linux 使 
用 每 个 页 表 项 中 的 访问 标志 位 (Accessed)， 在 页 被 访问 时 ， 该 标志 位 由 硬件 自动 置 
位 ， 而 且 ， 页 年 龄 由 页 描述 符 在 链表 《两 个 不 同 的 链表 之 一 ) 中 的 位 置 来 表示 [参见 本 
章 后 面 “ 最 近 最 少 使 用 (LRU) 链表 ”一 节 ] 。 


因此 ， 页 框 回收 算法 是 几 种 启发 式 方法 的 混合 : 
。 ，” 衣 慎 选择 检查 商 速 缓存 的 顺序 。 
。 “基于 页 年 龄 的 变化 排序 (在 释放 最 近 访 问 的 页 之 前 , 应 当 释 放 最 近 最 少 使 用 的 页 ) 。 


。 区别 对 待 不 同 状态 的 页 (例如 , 不 脏 的 页 与 脏 页 之 间 , 最 好 把 前 者 换 出 ， 因 为 前 者 
不 必 写 磁盘 ) 。 


反问 映射 


正如 上 一 节 所 述 ，PFRA 的 目标 之 一 是 能 释放 共享 页 框 。 为 达到 这 个 目的 ,Linux 2.6 内 核 
能 够 快速 定位 指向 同一 页 框 的 所 有 页 表 项 。 这 个 过 程 就 叫做 反 辐 映射 (reverse mapping)。 


反 回 上 映射 方法 的 简单 解决 之 道 , 就 是 在 页 描述 符 中 引信 附 加 字段 , 从 而 将 某 页 描述 符 所 
确定 的 页 框 中 对 应 的 所 有 页 表 项 联接 起 来 。 但是, 保持 更 新 这 样 的 链表 将 会 大 大 增加 系 
统 开 销 ， 因 此 ， 就 有 更 成 熟 的 方法 设计 出 来 了 。Linux 2.6 就 有 叫做 “面向 对 象 的 反 辐 
映射 ”的 技术 。 实 际 上 ， 对 任何 可 回收 的 用 户 态 页 ， 内 核 保留 系统 中 该 页 所 在 所 有 线性 
区 (“对象 ") 的 反 向 链接 , 每 个 线性 区 描述 符 存放 一 个 指针 指向 一 个 内 存 描 述 符 , 而 读 
内 存 描述 符 又 包含 一 个 指针 指向 一 个 页 爹 局 目录 (Page Global Directory)。 因 此 ， 这 


注 2 ; 还 可 以 认为 PFRA 是 “曾经 使 用 过 的 ”算法 , 它 的 思想 来 源 于 T.Johnson 和 D.Shasha 在 
1994 年 提出 的 2Q 冯 冲 区 管理 置 撞 站 法。 


注 3; 例如 ， 一 些 大 型 机 的 CPU 自动 更 新 每 个 页 表 项 中 表示 相应 页 年 龄 的 计数 器 。 
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些 反 向 链接 使 得 PFRA 能够 检索 引用 某 页 的 所 有 页 表 项 。 因 为 线性 区 描述 符 比 页 描述 符 
少 ， 所 以 更 新 共享 页 的 反 向 链接 就 比较 省 时 间 。 我 们 来 看 看 这 一 方法 是 如 何 实 现 的 。 


首先 , PFRA 必须 要 确定 待 回收 页 是 共享 的 或 是 非 共 享 的 , 以 及 是 映射 页 或 是 匿名 页 。 为 
做 到 这 一 点 ， 内 核 要 查看 页 描述 符 的 两 个 字段 ，_mapcount 和 mapping。 


_mapcount 字 段 存 放 引 用 页 框 的 页 表 项 数目 ,计数 器 的 起 始 值 为 -1, 这 表示 没有 页 表 项 
引用 该 页 框 ， 如 果 值 为 0， 就 表示 页 是 非 共 享 的 ; 而 如 果 值 大 于 0, 则 表示 页 是 共享 的 。 
page_mapcount 函数 接收 页 描述 符 地 址 , 返回 值 为 _mapcount+1 (这 样 , 如 返回 值 为 1， 
表明 是 某 个 进程 的 用 户 态 地 址 空间 中 存放 的 一 个 非 共 享 页 )。、 


页 描述 符 的 mapping 字段 用 于 确定 页 是 映射 的 或 匿名 的 。 说 明 如 下 : 


。 “如果 mapping 字 段 空 ， 则 该 页 属于 交换 高 速 缓存 (参见 本 章 后 面 “ 交 换 高 速 缓存 
ge 


。 ”如 果 mapping 字 段 非 空 , 且 最 低位 是 1, 表示 该 页 为 匿名 页 ， 同时 mapping 字 段 中 
存放 的 是 指向 anon_vma 描述 符 的 指针 (参见 下 一 三“ 匿名 页 的 反 向 映射 ")。 

。 如果 mapping 字 7 段 非 空 , 且 最 低位 是 0, 表示 该 页 为 映射 页 ， 同 时 mapping 字 段 指 
向 对 应 文件 的 address_space 对 象 (参见 第 十 五 章 的 “address_space 对 象 一 节 )。 


Linux 的 address_space 对 象 在 RAM 中 是 对 齐 的 , 所 以 其 起 始 地 址 是 4 的 倍数 。 因 此 其 
mapping 字 段 的 最 低位 可 以 用 作 一 个 标志 位 来 表示 该 字段 的 指针 是 指向 address_space 
对 象 还 是 anon_vma 描述 符 。 这 是 一 个 不 规范 的 编程 技巧 ， 但 内 核 要 使 用 大 量 的 页 描述 
符 ， 所 以 这 些 数据 结构 必须 尽 可 能 的 小 。PageAnon() 国 数 接收 页 描述 符 地 址 作为 参数 ， 
如 果 mapping 字段 的 最 低位 置 位 ， 则 函数 返回 1， 否则 返回 0。 


try_to_unmap () 函数 接收 页 描述 符 指针 作为 参数 ,尝试 清 空 所 有 引用 该 页 描述 符 对 应 页 
框 的 页 表 项 。 如 果 从 页 表 项 中 成 功 清除 所 有 对 该 页 框 的 应 用 ， 函 数 返 回 SWAP_SUCCESS 
(0); 如 果 有 些 引 用 不 能 清除 , 函数 返回 SWAP_AGAIN(1); 如 果 出 错 , 函数 返回 SWAP_FAIL 
(2)。 这 个 函数 很 短 ; 


int try_to_ unmap (struct page *pagel) 
{ 
int ret; 
if (Pagehnon lpage})) 
ret = try_to unmap_anon (page}: 
1] se 
ret = try_to unmap_file(tpagel); 
If (!page_mapped {page))} 
ret = SWAP_SUCCESS; 
return ret:; 
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3 一 -= 一 一 


阅 数 try_to_unmap_anon(} 和 try_to_unmap_file() 分 别处 理 匿名 页 和 映射 页 。 后 面 
会 对 这 两 个 函数 加 以 说 明 。 


匿名 页 的 反 回 映射 

匿名 页 经 常 是 由 几 个 进程 共享 的 。 最 为 常见 的 情形 是 : 创建 新 进程 ， 这 在 第 九 章 中 “ 写 
时 复制 ”一 节 里 已 有 描述 ， 父 进程 的 所 有 页 框 ， 包 括 匿名 页 ， 同 时 也 分 配给 子 进 程 。 另 
外 (但 不 常见 )， 进 程 创建 线性 区 时 使 用 两 个 标志 MAP_ANONYMOUS 和 MAP_SHARED， 
表明 这 个 区 域内 的 页 将 由 该 进程 后 面 的 子 进 程 共 享 。 


将 引用 同一 个 页 框 的 所 有 匿名 页 链接 起 来 的 策略 非常 简单 ,即将 该 页 框 所 在 的 匿名 线性 
区 存放 在 一 个 双向 循环 链表 中 。 要 注意 的 是 :即使 一 个 匿名 线性 区 存 有 不 同 的 页 ， 也 始 
终 只 有 一 个 反 向 映射 链表 用 于 该 区 域 中 的 所 有 页 框 。 


当 为 一 个 匿名 线性 区 分 配 第 一 页 时 ， 内 核 创建 一 个 新 的 anon_vma 数据 结构 ， 它 只 有 两 
个 字段 :lock 和 head。1lock 字段 是 竟 争 条 件 下 保护 链表 的 自 旋 锁 ，heada 字段 是 线 
性 区 摘 述 符 双 向 循环 链表 的 头 部 。 然 后 , 内 核 将 匿名 线性 区 的 vm_area_struct 描 述 符 
插入 anon_vma 链 表 。 为 实现 这 个 目的 , vm_area_struct 数 据 结构 中 包含 有 对 应 该 链表 
的 两 个 字段 ， anon_vma_node 和 anon_vma。anon_vma_nodqe 字 段 存放 指向 链表 中 前 一 
个 和 后 一 个 元 素 的 指针 , 而 anon_vma 字 段 指向 anon_vma 数 据 结构 。 最后, 按 前 面 所 述 ， 
内 核 将 anon_vma 数 据 结构 的 地 址 存放 在 匿名 页 描述 符 的 mapping 字 段 。 如 图 17-1 所 示 。 


当 已 被 一 个 进程 引用 的 页 框 插 人 另 一 个 进程 的 页 表 项 时 (例如 调用 forkO 系 统 调用 时 ， 参 
见 第 三 章 中 “clone()、fork() 及 vfork() 系 统 调用 ”一 节 )， 内 核 只 是 将 第 二 个 进程 的 匿名 
线性 区 插入 anon_vma 数 据 结构 的 双向 循环 链表 , 而 第 一 个 进程 线性 区 的 anon_vma 字 段 指 
同 该 ancn_vma 数据 结构 。 因 此 每 个 anon_vma 链表 通常 包含 不 同 进程 的 线性 区 ( 注 4)。 


如 图 17-1 所 示 , 借助 anon_vma 链 表 ， 内核 可 以 快速 定位 引用 同一 匿名 页 框 的 所 有 页 表 
项 。 实际 上 , 每 个 区 域 描述 符 在 vm_mm 字 段 中 存放 内 存 描述 符 地 址 , 而 该 内 存 描述 符 又 
有 一 个 pgd 字段, 其 中 存 有 进程 的 页 全 局 目录 。 这样, 页 表 项 就 可 以 从 匿名 页 的 起 始 线 
性 地 址 得 到 ， 而 该 线性 地 址 可 以 由 线性 区 描述 符 以 及 页 描述 符 的 index 字段 得 到 。 





注 4: anon_vma 的 链表 还 可 以 和 包括 同一 个 进程 的 几 个 相 四 的 匿名 线性 区 。 通 常 在 系统 调用 
mprotect () 把 一 个 匿名 线性 区 划分 成 两 个 或 更 多 个 线性 区 时 就 会 出 现 这 种 情况 。 





本 必 4 帮 0 
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日 


匿名 内 存 区 





17-1， 匿 名 页 的 面向 对 象 反 向 映射 


try_to_unmap_anon() 函 数 

当 回 收 匿 名 页 框 时 , PFRA 必须 扫描 anon_vma 链 表 中 的 所 有 线性 区 , 仔细 检查 是 否 每 个 
区 域 都 存 有 一 个 匿名 页 ， 而 其 对 应 的 页 框 就 是 目标 页 框 。 这 一 工作 就 是 通过 
try_to_unmap_anon() 函数 实现 的 ,， 它 接收 目标 页 框 描 述 符 作 为 参数 ,执行 的 主要 
步骤 如 下 : 


1， 获得 anon_vma 数据 结构 的 自 旋 锁 ， 页 描述 符 的 mapping 字段 指向 该 数据 结构 。 


2， 扫描 线性 区 描述 符 的 anon_vma 链表。 对 读 链 表 中 的 每 一 个 vma 线性 区 描述 符 ， 调 
用 try_to_unmap_one() 函数 ， 传 给 它 参 数 vma 和 页 描述 符 (参见 下 面 )。 如 果 由 
于 某 种 原因 返回 值 为 SWAP_FAIL, 或 如 果 页 描述 符 的 _mapcount 字 段 表明 已 找到 
所 有 引用 该 页 框 的 页 表 项 ， 那 么 停止 扫描 ， 而 不 用 扫描 到 链表 底部 。 


3， ”释放 第 1 步 得 到 的 自 旋 锁 。 


4， 返回 最 后 调用 trv_to_unmap_one1() 国 数 得 到 的 值 : SWAP_AGAIN (部 分 成 功 ) 或 
SWAP_FAIL (失败 )。 


oe 0 





try_to_unmap_onel() 函 数 

try_to_unmap_one () 国 数 由 trv_ co_unmnap_ ancon() 和 tryv_ co_unmap filel() 重 复 调 
用 。 它 有 两 个 参数 ; page 和 vma。page 是 一 个 指向 目标 页 描述 符 的 指针 ; 而 vma 是 
指向 线性 区 描述 符 的 指针 。 该 函数 执行 的 主要 步骤 如 下 : 


1. 计算 出 待 回收 页 的 线性 地 址 ， 所 依据 的 参数 有 : 线性 区 的 起 始 线性 地 址 (vma-> 
vm_start)、 被 映射 文件 的 线性 区 偏 移 量 (vma->vm_pgoff) 和 被 映射 文件 内 的 页 
偏 称 量 (page->index)。 对 于 匿名 页 ，vma->vm_pgoff 字段 是 0 或 者 vm_start/ 
PAGE_SIZE; 相应 地 , page->index 字 7 段 是 区 域内 的 页 索引 或 是 页 的 线性 地 址 除 以 
PAGE _ SIZE, 


2. ”如果 目 标 页 是 匿名 页 , 则 检查 页 的 线性 地 址 是 否 在 线性 区 内 。 如 果 不 是 , 则 结束 并 
返回 SWAP_AGAIN (在 介绍 匿名 页 的 反 向 映射 时 , 我 们 讲 过 anon_vma 链 表 可 能 存 
有 不 包含 目标 页 的 线性 区 ) 。 


3. 从 vma->vm_mm 得 到 内 存 描述 符 地 址 ， 并 获得 保护 页 表 的 自 旋 锁 vma->vm_mm-> 
page_table lock, 


4. ”成功 调用 pg9_offset{}). pud offset(), pmd_ offset{})} 和 pte offset_map1{) 
以 获得 对 应 目标 页 线性 地 址 的 页 表 项 地 址 。 

5. ”执行 一 些 检 查 来 验证 目标 页 可 有 效 回收 ,下 面 的 检查 步骤 中 , 如果 任 何 一 步 失 败 ， 
函数 跳 到 第 12 步 , 结束 并 返回 一 个 有 关 的 错误 码 ; SWAP_AGRIN 或 SWAP_FRAIL。 


a. 检查 指向 目标 页 的 页 表 项 。 如 果 不 成 功 ， 则 函数 返回 SWAP_AGAIN,。 这 可 能 
在 以 下 几 种 情形 下 发 生 ，; 


。*。 ”指向 页 框 的 页 表 项 与 COW 关联 ， 而 vma 标识 的 匿名 线性 区 仍然 属于 原 页 
框 的 ancn_vma 链表 ，。 


* mremap () 系 统 调 用 可 重新 映射 线性 区 , 并 通过 直接 修改 页 表 项 将 页 移 到 用 
户 态 地 址 空间 。 这 种 特殊 情况 下 ， 因 为 页 描述 符 的 indaex 字 段 不 能 用 于 确 
定 页 的 实际 线性 地 址 ， 所 以 面向 对 象 的 反 向 映射 就 不 能 使 用 了 。 


。 文件 内 存 映射 是 非 线 性 的 (参见 第 十 六 章 的 “ 非 线 性 内 存 映射 ”一 节 )。 


b. 验证 线性 区 不 是 锁定 (VM_LOCKED) 或 保留 (VM_RESERVED) 的 。 如果 有 和 销 
定 (VM_LOCKED) 或 保留 情况 之 一 出 现 ， 国 数 就 返回 SWAP_FAIL。 


c， 验证 页 表 项 中 的 访问 标志 位 (Accessed) 被 清 0。 如 果 没 有 , 该 函数 将 它 清 0， 
并 返回 SWAP_FAIL。 访 问 标 志 位 置 位 表示 页 在 用 ， 因 此 不 能 被 回收 。 


d， 检查 页 是 否 属于 交换 高 速 缓存 (参见 本 章 后 面 “交换 高 速 缓存 ”一 节 ), 且 此 时 


是 


它 正 由 get_user_pages () 处 理 (参见 第 九 章 的 “分 配 线性 地 址 区 间 ” 一 节 )。 
在 这 种 情形 下 ， 为 避免 恶性 竞争 条 件 ， 国 数 返 回 SWAP_FRAIL。 

6. ”页 可 以 被 回收 。 如 果 页 表 项 的 Dirty 标志 位 置 位 ， 则 将 页 的 PG_dirty 标志 置 位 。 

7. 清空 页 表 项 ， 刷 新 相应 的 TLB。 

8. 如果 是 匿名 页 ， 国 数 将 换 出 页 (swapped-out page) 标识 符 插 人 页 表 项 ， 以 便 将 来 
访问 时 将 该 页 换 人 (参见 本 章 后 面 “ 交 换 ” 一 节 )。 而 且 ， 递 减 存放 在 内 存 描 “ 述 符 
anon_rss 字段 中 的 匿名 页 计数 器 。 

9. ”递减 存放 在 内 存 描述 符 rss 字段 中 的 页 框 计数 器 。 

10. 递减 页 描述 符 的 _mapcount 字段 ， 因 为 对 用 户 态 页 表 项 中 页 框 的 引用 已 被 删除 。 

11. 递减 存放 在 页 描述 社 _count 字段 中 的 页 框 使 用 计数 器 。 如 果 计 数 器 变 为 负数 ， 则 
从 活动 或 非 活动 链表 中 删除 页 描述 符 [参见 本 章 后 面 “ 最 近 最 少 使 用 (LRU) 链表 ” 
一 节 ]， 而 且 调 用 free_hot_page() 释放 页 框 (参见 第 八 章 的 “每 CPU 页 框 高 速 
绥 存 ”一 节 )。 

12. 调用 pte_unmap () 释 放 临 时 内 核 映 射 ， 因 为 第 4 步 中 的 pte_offset_map() 可 能 
分 配 了 一 个 这 样 的 映射 (参见 第 八 章 的 “高 端 内 存 页 框 的 内 核 映 射 ”一 节 )。 

13， 释放 第 3 步 中 获得 的 自 旋 锁 vma->vm_mm->page_table_lock。 

14. 返回 相应 的 错误 码 (成 功 时 返回 SWAP_AGAIN)。 


映射 页 的 反问 映射 

与 匿名 页 相 比 , 映射 页 的 面向 对 象 反 向 映射 所 基于 的 思想 很 简单 : 我 们 总 是 可 以 获得 指 
向 一 个 给 定 页 框 的 页 表 项 , 方法 就 是 访问 相应 映射 页 所 在 的 线性 区 描述 符 。 因 此， 反 向 
映射 的 关键 就 是 一 个 精巧 的 数据 结构 ,这 个 数据 结构 可 以 存放 与 给 定 页 框 有 关 的 所 有 线 
性 区 描述 符 。 


我 们 在 上 一 节 看 到 , 匿名 线性 区 描述 符 存 放 在 双向 循环 链表 中 。 获得 引用 给 定 页 框 的 所 
有 页 表 项 , 就 是 对 该 链表 中 的 元 素 进行 线性 扫描 。 共 享 匿 名 页 框 的 数量 不 是 很 大 ,因此 
这 个 方法 工作 得 很 好 。 


与 匿名 页 相反 ， 上 映射 页 经 常 是 共享 的 ， 这 是 因为 不 同 的 进程 常会 共享 同一 个 程序 代码 。 
例如 ,几乎 所 有 进程 都 会 共享 包含 标准 C 库 代码 的 页 (参见 第 二 十 章 的 “ 库 ” 一 节 )。 因 
此 ，Linux 2.6 依靠 叫做 “优先 搜索 树 (priority search tree)” 的 结构 来 快速 定位 引用 
同一 页 框 的 所 有 线性 区 。 


， 


每 个 文件 对 应 一 个 优先 搜索 树 。 它 存放 在 address_space 对 象 的 i_mmap 字段 中 ， 访 
address_space 对 象 包 含 在 文件 的 索引 节点 对 象 中 。 因为 映射 页 描述 符 的 mapping 字 段 
指向 address_space 对 象 ， 所 以 总 是 能 够 快速 检索 搜索 树 的 根 。 


优先 搜索 树 


Linux 2.6 使 用 的 优先 搜索 树 (PST) 是 基于 Edward McCreight 于 1985 年 提出 的 一 种 
数据 结构 ， 用 于 表示 一 组 相互 重 登 的 区 间 。McCreight 树 是 一 个 堆 和 对 称 搜索 树 的 混合 
体 ， 且 用 于 对 一 个 区 间 集 进行 查询 。 例 如 ,“ 在 一 个 给 定 区 间 内 有 哪些 区 间 ? ”和 “ 哪 
些 区 间 与 给 定 区 间 相交 ? ”这 种 查询 所 花 的 时 间 与 树 的 高 度 和 结果 区 间 的 数量 成 正比 ，。 


PST 中 的 每 一 个 区 间 相 当 于 一 个 树 的 节点 ， 它 由 基 索 引 (radix index) 和 堆 索 引 (heap 
index) 两 个 索引 来 标识 。 基 索引 表示 区 间 的 起 始点 而 堆 索 引 表 示 终 点 。PST 实 际 上 是 一 
个 依赖 于 基 上 索引 的 搜索 树 , 并 附加 一 个 类 堆 属性 , 即 一 个 节点 的 堆 索 引 不 会 小 于 其 子 节 
点 的 堆 索引 。 


Linux 优先 搜索 树 与 McCreight 数 据 结构 的 不 同 有 两 个 重要 方面 : 第 一 , Linux 树 不 总 是 
对 称 的 【对称 算法 要 耗费 很 多 的 系统 空间 和 执行 时 间 ) 第 二 , Linux 树 被 修改 成 存放 线 
性 区 而 不 是 线性 区 间 。 


每 个 线性 区 可 以 被 看 成 是 文件 页 的 一 个 区 间 ,， 并 由 在 文件 中 的 起 始 位 置 ( 基 索 引 ) 和 终 
点 位 置 ( 堆 索 引 ) 所 确定 。 但 是 ， 线 性 区 通常 是 从 同一 页 开始 (通常 从 页 索引 0 开始 )。 
不 幸 的 是 ，McCreight 的 原 数据 结构 不 能 存放 起 始 位 置 完全 一 样 的 区 间 。 补 充 解 决 方案 
是 : 除了 基 索 引 和 堆 索 引 ，PST 的 每 个 节点 附带 一 个 大 小 索引 (size index ) 。 该 大 小 索 
引 的 值 为 线性 区 大 小 (页 数 ) 减 1。 该 大 小 索引 使 搜索 程序 能 够 区 分 同一 起 始 文件 位 置 
的 不 同 线性 区 。 


然而 ， 太 小 索引 会 大 大 增加 不 同 的 节点 数 , 会 鸽 PST 谥 出。 特别 是 ， 当 有 很 多 节点 具有 
相同 的 基 索 引 但 堆 索 引 不 同时 ，PST 就 无 法 全 部 容 下 它们 。 为 了 解决 这 个 问题 ，PST 可 
以 包括 溢出 子 树 (overfiow supiree)， 读 子 树 以 PST 的 叶 为 根 ， 且 包含 具有 相同 基 索 引 
的 节点 。 


此 外 ， 不 同 进程 拥有 的 线性 区 可 能 是 映射 了 相同 文件 的 相同 部 分 (如 上 面 提 及 的 标准 CC 
库 )。 在 这 种 情况 下 , 对 应 这 些 区 域 的 所 有 节点 具有 相同 的 基 索 引 . 堆 索 引 和 大 小 索引 。 当 
必须 在 PST 中 插入 一 个 与 现存 某 个 节点 具有 相同 索引 值 ( 基 索 引 , 堆 索 引 和 大 小 索引 都 相 
同 ) 的 线性 区 时 ， 内 核 将 读 线 性 区 描述 符 插入 一 个 以 原 PST 节点 为 根 的 双向 循环 列表 。 


图 17-2 所 示 是 一 个 简单 的 优先 搜索 树 。 在 图 的 左 侧 , 我 们 看 到 有 了 七 个 线性 区 覆盖 着 一 个 
文件 的 前 六 页 。 每 个 区 间 都 标 有 基 索 引 、 堆 索引 和 大 小 索引 。 在 图 的 右 侧 ， 则 是 对 应 的 


和 


PST。 注 意 ， 子 节点 的 堆 索 引 都 不 大 于 相应 父 节 点 的 堆 索 引 。 而 且 我 们 可 以 看 到 ， 任 意 
一 个 节点 的 左 子 节点 基 索 引 也 都 不 大 于 右 子 节点 基 索 引 , 如 果 基 索引 相等 , 则 按照 大 小 
索引 排序 。 让 我 们 假定 : PFRA 搜索 包含 某 页 (索引 为 5) 的 全 部 线性 区 。 搜索 算法 从 根 
(0, 5, 5) 开始 ， 因 为 相应 区 间 包 含 该 页 ， 那么 这 就 是 得 到 的 第 一 个 线性 区 。 然 后 算法 
搜索 根 的 左 子 节 点 (0，4，4)， 比 较 堆 索引 (4) 和 页 索引 ， 因 为 堆 索 引 较 小 ， 所 以 区 
间 不 包括 该 页 。 而 且 , 有 了 PST 的 类 堆 属 性 , 该 节点 的 所 有 子 节点 都 不 包括 该 页 。 因此 ， 
算法 直接 跳 到 根 的 右 子 节点 (2，3，5)， 其 相应 区 间 包 含 该 页 ， 因此 得 到 这 个 区 间 。 然 
后 ， 算 法 搜索 子 节点 (1，2，3) 和 (2，0，2)， 但 它们 都 不 包含 该 页 。 





17-2: 简单 的 优先 搜索 树 


因 篇 幅 有 限 ， 我 们 对 实现 Linux PST 的 数据 结构 与 函数 无 法 作 详 尽 曾 述 。 我 们 只 讨论 由 
prio_tree_node 数据 结构 表示 的 一 个 PST 节点 。 该 数据 结构 在 每 个 线性 区 描述 符 的 
shared.prio_tree_node 字 7 段 中 ,shared.vm_set 数 据 结 构 作 为 shared.prio tree_node 
的 替代 品 ， 可 以 用 来 将 线性 区 扒 述 符 插入 一 个 PST 节点 的 链表 副本 。 可 以 用 
vma_prio_tree_insert() 和 vvma_prio_ tree_remove1() 国 数 分 别 插 人 和 删除 PST 节点 。 
两 个 函数 的 参数 都 是 线性 区 描述 符 地 址 与 PST 根 地 址 。 对 PST 的 搜索 可 调用 
vma_prio_tree_foreach 宏 来 实现 ,该 宕 循环 搜索 所 有 线性 区 描述 符 , 这 些 描 述 符 在 给 定 
范围 的 线性 地 址 中 包含 至 少 一 页 。 


try_to_unmap_file() 函 数 

cry_to_unmap_filef) 国 数 由 try_to_unmap1() 调 用 ， 并 执行 映射 页 的 反 向 映射 。 当 为 
线性 内 存 上 映射 时 ， 读 函数 就 很 容易 描述 (参见 第 十 六 章 的 “内 存 上 映射 ”一 节 )。 这 种 情 
况 下 ， 它 执行 的 步骤 如 下 ; 

1. 获得 page->mapping->i_mmap_lock 自 旋 锁 。 

2. ”对 搜索 树 应 用 vma_prio_tree_foreach|() 宏 ， 搜索 树 的 根 存 放 在 page->mapping 
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->i_rmap 字段 。 对 宏 发 现 的 每 个 vm_area_struct 描述 符 ， 函 数 调用 try_to_urmap_ 
one(), 尝试 对 该 页 所 在 的 线性 区 页 表 项 清 0 (参见 前 面 “ 匿 名 页 的 反 向 映射 ”一 节 ) 。 
如 果 由 于 某 种 原因 , 返回 SWAP_FAIL, 或 者 如 果 页 描述 符 的 _mapcount 字段 表明 引用 
该 页 框 的 所 有 页 表 项 都 已 找到 ， 则 搜索 过 程 马 上 结束 。 


3. 释放 page->mapping->i_mmap_lock 自 旋 锁 。 
4. 根据 所 有 的 页 表 项 清 0 与 否 ， 返 回 SWAP_AGAIN 或 SWAP_FAIL。 


如 果 映 射 是 非 线 性 的 (参见 第 十 六 章 的 “ 非 线 性 内 存 映射 "一 节 ), 那么 try_to_unmap_ 
one() 函 数 可 能 无 法 清 0 某 些 页 表 项 ， 这 是 因为 页 描述 符 的 index 字段 (该 字段 存放 文 
件 中 页 的 位 置 ) 不 再 对 应 线性 区 中 的 页 位 置 ，try_to_unmap_one() 函 数 就 无 法 确定 页 
的 线性 地 址 ， 也 就 无 法 得 到 页 表 项 地 址 。 


唯一 的 解决 方法 是 对 文件 非 线 性 线性 区 的 穷尽 搜索 ,双向 链表 以 文件 的 所 有 非 线 性 线性 区 
的 描述 符 所 在 的 page->mapping 文 件 的 address-space 对 象 的 i_mmap_non]linear 字 段 
为 根 。 对 每 个 这 样 的 线性 区 ，try_to_unmap_file({) 函 数 调用 try_to_unmap_cluster 1{)， 
而 try_to_unmap_cluster1{) 函数 会 扫描 该 线性 区 线性 地 址 所 对 应 的 所 有 页 表 项 ， 并 尝试 
将 它们 请 0。 


因为 搜索 可 能 很 费时 ,所 以 执行 有 限 扫描 ,而 且 通 过 试探 法 决定 扫描 线性 区 的 娜 一 部 分 ， 
vma_area_struct 描述 符 的 vm_private_aata 字 段 存 有 当前 扫描 的 当前 指针 。 因 此 ， 
try_to_unmap_filel() 图 数 在 某 些 情况 下 可 能 会 找 不 到 待 停止 映射 的 页 。 出 现 这 种 情况 
时 ，try_to_unmap () 国 数 发 现 页 仍然 是 映射 的 ， 那 么 返回 SWAP_RAGRAIN 而 不 是 
SWAP_SUCCESS, 


PFRA 实现 


页 框 回收 算法 必须 处 理 多 种 属于 用 户 态 进程 、 磁盘 高 速 缓存 和 内 存 高 速 缓存 的 页 , 而 且 必 
须 遵 照 几 条 试探 法 叭 则 。 因 此 ，PFRA 有 很 多 函数 也 就 不 奇怪 了 。 图 17-3 列 出 了 PFRA 的 
主要 函数 , 箭头 表示 函数 调用 ,例如 ,try_to_free_pages() 函 数 调用 shrink_caches()、 
shrink_slab() 和 out_of_memory () 三 个 国 数 。 


正如 你 所 看 到 的 ， PFRA 有 几 个 人 口 (entry point) 。 实 际 上 ， 页 框 回收 算法 的 执行 有 三 
种 基本 情形 : 
内 站 如 缺 回收 

内 核发 现 内 存 紧 缺 





回收 页 框 | 683 


”各 冲 区 分 配 时 页 分 配 时 内 存 “上 「” 暂停 执行 到 | 
No 紧缺 磁盘 {睡眠 ) kswapd 是 | reap_work 
allocage_buffers() alloc_pages() 是 pm_suspend disk() 国 内 核 线程 是 | 工作 队列 





二 
try to free pages{) balance pgdat() 


ishrink slab() slab destroy() 





free more memory() 





shrink caches{) 


refill inactive zone{) shrink_list() 
; page referenced{ ) pageout{) 


17-3: PFRA 的 主要 范 数 


用 有 鼎 回收 


在 进入 suspend-to-disk 状态 时 ， 内 核 必须 释放 内 存 (我 们 不 再 进一步 讨论 这 种 情 
形 ) 


局 其 回收 


必要 时 ， 周 期 性 激活 内 核 线程 执行 内 存 回收 算法 


内 存 紧 缺 回 收 在 下 列 几 种 情形 下 激活 : 


grow_bpuffers() 国 数 (由 __getpblk{) 调 用 ) 无 法 获得 新 的 缓冲 区 页 (参见 第 十 
五 章 的 “在 页 高 速 缓存 中 搜索 块 ” 一 节 )。 

alloc_page_buffers1() 国 数 (由 create_empty_buffers() 调 用 ) 无 法 获得 页 临 
时 缓冲 区 首部 (参见 第 十 六 章 的 “ 读 写 文件 ”一 节 )。 
__alloc_pages1() 国 数 无 法 在 给 定 的 内 存 管 理 区 (memory zone) 中 分 配 一 组 连 
续 页 框 (参见 第 八 章 中 “伙伴 系统 算法 ”一 节 ) 。 


周期 回收 由 下 面 两 种 不 同 的 内 核 线程 沿 活 ， 


BO 。。，。，- 。，。，， 


。 ”kswapd 内 核 线程 , 它 检查 某 个 内 存 管理 区 中 空闲 页 框 数 是 否 已 低 于 pages_high 值 
的 标高 (参见 后 面 的 “周期 回收 ”一 节 )。 

。 ”events 内 核 线程 , 它 是 预定 义工 作 队列 的 工作 者 线程 (参见 第 四 章 的 “工作 队列 ”一 
节 ), PFRA 周期 性 地 调度 预定 义工 作 队 列 中 的 一 个 任务 执行 , 从 而 回收 slab 分 配器 
处 理 的 位 于 内 存 高 速 缓存 中 的 所 有 空闲 slab (参见 第 八 章 的 “slab 分 配器 ”一 节 )。 


我 们 现在 详细 讨论 页 框 回收 算法 的 各 个 部 分 ， 也 包括 图 17-3 中 的 所 有 函数 。 


最 近 最 少 使 用 (LRU) 链表 

属于 进程 用 户 态 地 址 空间 或 页 高 速 缓存 的 所 有 页 被 分 成 两 组 :活动 链表 与 非 活动 链表 。 
它们 被 统称 为 LRU 链表 。 前 面 一 个 链表 用 于 存放 最 近 被 访问 过 的 页 ， 后面 的 则 存放 有 
一 段 时 间 设 有 被 访问 过 的 页 。 显 然 ， 页 必须 从 非 活动 链表 中 窃取 。 


页 的 活动 链表 和 非 活动 链表 是 页 框 回收 算法 的 核心 数据 结构 。 这 两 个 双向 链表 的 头 分 别 
存放 在 每 个 zone 描述 符 (参见 第 八 章 的 “内 存 管 理 区 ”一 节 ) 的 active_list 和 
inactive_list 字段 ， 而 该 描述 罕 的 nr_active 和 nr_inactive 字 有‘ 段 表示 存放 在 两 个 
链表 中 的 页 数 。 最 后 ，lru_lock 字 段 是 一 个 自 旋 销 , 保护 两 个 链表 免 受 SMP 系统 上 的 
并 发 访问 。 

如 果 页 属于 LRU 链表 , 则 设置 页 描述 符 中 的 PG_lru 标 志 。 此 外 , 如果 页 属于 活动 链表 ， 
则 设置 PG_active 标 志 , 而 如 果 页 属于 非 活 动 链表 , 则 清 PG_active 标 志 。 页 描述 符 的 
lru 字段 存放 指向 LRU 链表 中 下 一 个 元 素 和 前 一 个 元 素 的 指针 。 


另外 有 几 个 辅助 函数 处 理 LRU 链表 : 
add _ page to active listt{) 

将 页 加 入 管理 区 的 活动 链表 头 部 并 递增 管理 区 描述 符 的 nr_active 字 段 。 
add page to_inactive_listi) 

将 页 加 入 管理 区 的 非 活动 链表 头 部 并 递增 管理 区 描述 符 的 nr_inactive 字 段 。 
del page_from active_list!{} 

从 管理 区 的 活动 链表 中 删除 页 并 递减 管理 区 描述 符 的 nr_active 字 有 段 。 
del_page from_inactive_ 11st() 

从 管理 区 的 非 活 动 链表 中 删除 页 并 递减 管理 区 描述 符 的 nr_inactive 字 段 。 


del_page_from_lrut) 
检查 页 的 PG_active 标 志 。 依据 检查 结果 , 将 页 从 话 动 或 非 活动 链表 中 删除 , 递减 


回收 页 框 加 


管理 区 描述 符 的 nr_active 或 nr_inactive 宇 段 ， 且 如 有 必要 ， 将 FPG_active 标 
志清 0。 

activate Page 1) 
检查 PG_act ive 标 志 ， 如 果 未 置 位 (页 在 非 活 动 链 表 中 )， 将 页 称 到 活动 列表 中 ， 
依次 调用 del_page_from_inactive_list() 和 adq_page_to active_list(), 景 
后 将 PG_active 标 志 置 位 。 在 移动 页 之 前 ， 获 得 管理 区 的 1ru_lock 自 旋 锁 。 

lru cache addl() 
如 果 页 不 在 LRU 链表 中 ， 将 PG_1ru 标 志 置 位 ， 得 到 管理 区 的 1ru_lock 自 旋 锁 ， 
调用 add_page_to_inactive_list{) 把 页 插入 管理 区 的 非 活 动 链 表 。 

lru _ cache add activet{) 
如 果 页 不 在 LRU 链表 中 ,将 PSG_lru 和 PG_active 标志 置 位 ， 得 到 管理 区 的 
lru_lock 自 旋 锁 ,调用 ada_page_to_active_list() 把 页 插入 管理 区 的 活动 链表 。 


事实 上 ， 最 后 两 小 函数 ，lLru_cache_addqa() 和 1Lru_cache_add_active() 稍 有 些 复杂 。 
这 两 个 国 数 实际 上 并 设 有 立刻 把 页 移 到 LRU , 而 是 在 pagevec 类 型 的 临时 数据 结构 中 聚 
集 这 些 页 ， 每 个 结构 可 以 存放 多 达 14 个 页 描述 符 指针 。 只 有 当 一 个 pagevec 结构 写 满 
了 ， 页 才 真 正 被 移 到 LRU 链表 中 。 这 种 机 制 可 以 改善 系统 性 能 ， 这 是 因为 只 当 LRU 链 
表 实 际 修改 后 才 获 得 LRU 自 旋 锁 。 


在 LRU 链表 之 间 移 动 页 

PFRA 把 最 近 访 问 过 的 页 集中 放 在 活动 链表 中 , 以 便当 查找 要 回收 的 页 框 时 不 扫描 这 些 
页 。 相 反 ，PFRA 把 很 长 时 间 没 有 访问 的 页 集中 放 在 非 活动 链表 中 。 当 然 ， 应 该 根据 页 
是 否 正 被 访问 ， 把 页 从 非 活动 链表 移 到 活动 链表 或 者 退回 。 


显然 ， 两 个 状态 ( “活动 ”和 “ 非 话 动 ) 是 不 足以 描述 所 有 可 能 的 访问 模式 的 。 例 如 ， 
假定 日 志 进 程 每 阳 1 小 时 把 一 些 数 据 写 人 一 个 页 中 。 尽 管 这 个 页 是 “不 活动 的 ”已 经 很 
长 时 间 , 但 是 访问 使 它 变 为 “活动 的 ， 因 此 即使 这 一 页 在 整整 1 小 时 内 设 有 被 访问 , 也 
不 回收 相应 的 页 框 。 当 然 ， 对 这 种 问题 并 没有 通用 的 解决 方法 ， 因 为 PFRA 没有 办 法 预 
测 用 户 态 进程 的 行为 ; 不 过 , 页 不 应 该 在 每 次 单独 的 访问 中 就 改变 自己 的 状态 似乎 是 合 
理 的 。 


在 页 描述 符 中 的 PG_referenced 标 志 用 来 把 一 个 页 从 非 活 动 链表 移 到 活动 链表 所 需 的 访 
问 次 数 加 倍 : 也 把 一 个 页 从 活动 链表 移 到 非 活动 链表 所 需 的 “丢失 访问 ”次 数 加 倍 〈 见 
下 面 )。 例 如 ， 假 定 在 非 活动 链表 中 的 一 个 页 其 PG_referenced 标 志 置 为 0。 第 一 次 访 
问 把 这 个 标志 置 为 1, 但 是 这 一 页 仍然 留 在 非 活 动 链表 中 。 第 二 次 对 该 页 访问 时 发 现 这 


I 和 


一 标志 被 设置 ， 因 此 , 把 页 移 到 活动 链表 。 但 是 ， 如果 第 一 次 访问 之 后 在 给 定 的 了 时间 间 
隅 内 第 二 次 访问 设 有 发 生 ， 那 么 页 框 回收 算法 就 可 能 重 置 PG_referenced 标志 。 
如 图 17-4 所 示 ,PFRA 使 用 mark page accessed!{) .page referenced()} 和 refill inactive_zcnef) 


国 数 在 LRU 链表 之 间 移 动 页 。 在 图 中 ,包含 有 页 的 LRU 链表 由 PG_active 标 志 的 状态 
表示 。 


PCO_active == 


Pa _referenced == 0 


一 一 和 rcoche_oddl) 
一 he odd activel) 
Po adive ==0 
PO_referenced == 





17-4: 在 LRU 链表 之 间 移 动 页 


mark_page_accessed() 函 数 

当 内 核 必须 把 一 个 页 标记 为 访问 过 时 , 就 调用 mark_page_accessed|() 钞 数 。 每 当 内 核 

决定 一 个 页 是 被 用 户 态 进程 .文件 系统 层 还 是 设备 驱动 程序 引用 时 ,这 种 情况 就 会 发 生 。 

例如 ， 在 下 列 情况 下 调用 mark_page_accessed():} 

当 按 需 装 人 进程 的 一 个 匿名 页 时 (由 ao_anonymous_pagel) 国 数 执行 :参见 第 九 
章 “ 请 求 调 页 ”一 市 )。 

。 ” 当 按 需 装 人 内 存 映射 文件 的 一 个 页 时 (由 filemap_nopage() 国 数 执行 ; 参见 第 十 
六 章 “ 内 存 映射 的 请 求 调 页 ”一 节 )。 

。 ” 当 按 需 装 入 IPC 共享 内 存 区 的 一 个 页 时 (由 shmem_nopage() 函数 执行 ; 参见 第 十 
九 章 “IPC 共享 肉 存 ”一 刷 )。 

。 “ 当 从 文件 读 取 数 据 页 时 (由 do_generic_file_read() 国 数 执行 ,参见 第 十 六 章 
“从 文件 中 读 取 数据 ”一 节 )。 

. 当 换 入 一 个 页 时 (由 do_swap_page() 久 数 执行 ， 参见 后 面 的 “ 换 人 页 ”一 市 )。 


。 ” 当 在 页 高 速 缓存 中 搜索 一 个 缓冲 区 页 时 (参见 第 十 五 章 “ 在 页 高 速 组 存 中 搜索 块 " 
一 节 中 介绍 的 __find_get_block() 国 数 )。 


BE 


a 


mark_page_accessed() 国 数 执行 下 列 代码 片段 


if (!PageAct ivelpage) &&k PageReferencedlpage}) &&k PageLRU(page}}) 1 
activate page (page}; 
ClearPageReferenced (pagel}.; 

} else if (!PageReferencedlpage}) 
SetPageReferenced (page}; 


如 图 17-4 所 示 ， 该 函数 调用 前 ， 只 有 当 PG_referenced 标 志和 置 位 ， 它 才 把 页 从 非 活动 
链表 移 到 活动 链表 。 


page_referenced() 函 数 


PFRA 扫描 一 页 调用 一 次 page_referenced() 函 数 ， 如果 PG_referenced 标 志 或 页 表 项 中 
的 某 些 Accessed 标 志 位 置 位 ， 则 该 函数 返回 1; 否则 返回 0。 该 函数 首先 检查 页 描述 符 的 
PG_referenced 标 志 。 如 果 标 志 置 位 则 精 0。 然 后 使 用 面向 对 象 的 反 向 映射 方法 ， 对 引用 
该 页 的 所 有 用 户 态 页 表 项 中 的 accessed 标 志 位 进行 检查 并 清 0。 为 此 , 函数 用 到 三 个 辅助 
国 数 :page_referenced_anon() .page_referenced file() 和 page_referenced_one(}), 
这 与 本 章 前 面 “ 反 向 上 映射 ”一 节 中 的 try_to_unmap_xyxocx() 国 数 类 似 。page_referenced () 
函数 还 会 用 到 交换 标记 (swap token， 参 见 本 章 后 面 “ 交 换 标记 ”一 节 )。 


从 活动 链表 到 非 活 动 链表 移动 页 不 是 由 page_referenced!) 销 数 ， 而 是 由 
refil]_ inactive_zone{) 录 数 实施 的 。 实 际 上 ，refill_inactive_zone|() 函 数 除 此 
之 外 还 有 其 他 很 多 功能 ， 因 此 我 们 要 进行 深入 的 讨论 ，。 


refill_inactive_zone() 函 数 

如 图 17-3 所 示 ,refil1l_inactive_zone() 国 数 由 shrink_zone() 调 用 ,而 shrink_zone() 
纯 数 对 页 高 速 缓存 和 用 户 态 地 址 空间 进行 页 回收 (参见 本 章 后 面 “ 内 存 紧 缺 回收 ”一 节 ) 。 
此 国 数 有 两 个 参数 : zone 和 sc。 指 针 zone 指向 一 个 内 存 管理 区 描述 符 ， 指针 sc 指向 
一 个 scan_control 结 构 。PFRA 广 诈 使 用 scan_control 这 个 数据 结构 , 该 结构 存 才 着 回 
收 操作 执行 时 的 有 关 信 息 。 表 17-2 中 列 出 了 它 的 字段 。 


表 17-2，scan_control 描述 符 的 字段 


类 型 字段 说 明 

unsigned long nr to_scan 活动 链表 中 待 扫 描 的 目标 页 数 
unsigned long nr_scarnned 当前 和 挝 代 中 扫描 过 的 非特 动 页 数 
unsigned long nr_reclaimed 当前 和 迭代 中 回收 的 页 数 


unsigned long nr_mapped 用 户 态 地 址 空间 引用 的 页 数 


a 
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表 17-2: scan_control 描述 符 的 字段 { 续 ) 


类 型 字段 说 明 

int nr to _ reclaim 待 回 收 的 目标 页 数 

unsigned int priority 扫描 优先 级 ,范围 从 12 到 0， 低 优先 级 表示 扫 
描 更 多 的 页 

unsigned int gqfp_mask 调用 进程 传 来 的 GFP 掩 码 

int may_writepage 如 果 置 位 ， 则 允许 将 脏 页 写 到 磁盘 (只 针对 便 
携 情形 ) 


refill_inactive_zone() 函 数 的 工作 至 关 重要 ,因为 ,从 活动 链表 将 页 移 到 非 活动 链 
表 就 意味 着 页 迟早 要 被 PFRA 捕获 。 如 果 函 数 的 掠夺 性 过 强 , 就 会 有 过 多 的 页 从 活动 链 
表 被 移动 到 非 活 动 链表 。 因 此 ，PFRA 就 会 回收 大 量 的 页 框 ， 系 统 性 能 会 受到 影响 。 反 
过 来 ,如果 函 数 太 懒 惰 ， 就 没有 足够 的 未 用 页 来 补充 非 活 动 链表 ，PFRA 就 不 能 回收 内 
存 。 为 此 ， 该 国 数 可 以 调整 自己 的 行为 : 开始 时 ， 对 每 次 调用 ， 扫 描 非 活动 链表 中 少量 
的 页 ， 但 是 当 PFRA 很 难 回 收 内 存 时 ，refill_inactive_zone() 在 每 次 调用 时 就 逐 源 
增加 扫描 的 活动 页 数 。 scan_control 数 据 结 构 中 priority 字 段 的 值 控制 该 函数 的 行为 
( 低 值 表示 更 紧迫 的 优先 级 )。 


还 有 一 个 试探 法 可 以 调整 refill_inactive_zonet{) 函 数 行为 。LRU 链表 中 有 两 类 页 ; 
属于 用 户 态 地 址 空间 的 页 、 不 属于 任何 用 户 态 进 程 且 在 页 高 速 缓存 中 的 页 。 如 前 所 述 ， 
PFRA 倾向 于 压缩 页 高 速 缓存 , 而 将 用 户 态 进程 的 页 留 在 RAM 中 。 然 而 , 每 一 种 策略 中 
都 没有 一 个 固定 的 黄金 法 则 保证 系统 的 高 性 能 , 所 以 refill_inactive_zone() 函 数 使 
用 交换 倾向 (swap tendency) 经 验 值 , 由 它 确 定 函 数 是 移动 所 有 的 页 还 是 只 移动 不 属于 
用 户 态 地 址 空间 的 页 ( 注 5)。 函 数 按 如 下 公式 计算 交换 倾向 值 : 


充 换 应 向 值 = 映射 比率/2 + 负 珍 值 + 交 搁 值 


映射 比率 (mapped ratio) 是 用 户 态 地 址 空间 所 有 内 存 管理 区 的 页 (sc->nr_mapped) 占 
所 有 可 分 配 页 框 数 的 百分比 。mapped_ratio 的 值 大 表示 动态 内 存 大 部 分 用 于 用 户 态 进 
程 ， 而 值 小 则 表示 大 部 分 用 于 页 高 速 缓存 。 


负荷 值 (distress) 用 于 表示 PFRA 在 管理 区 中 回收 页 框 的 效率 。 其 依据 是 前 一 次 PERA 


“交换 倾向 ”这 一 表述 可 能 引起 误解 ,因为 用 户 态 地 址 空间 的 页 可 以 是 “可 交换 的 、 可 
同步 的 ”以 及 “可 和 去 弃 的 "。 不 过 ， 交 换 倾 向 值 确实 控制 了 PFRA 实现 的 交 摘 量 ， 固 为 几 
乎 所 有 可 交换 的 页 都 属于 用 户 态 地 址 空间 。 


汪 3: 


回收 页 框 6 


运行 时 管理 区 的 扫描 优先 级 , 这 个 优先 级 存放 在 管理 区 描述 符 的 prev_priority 字 有 段 。 
人 负荷 值 与 管理 区 前 一 次 优先 级 的 对 应 关系 如 下 : 


管理 区 前 一 次 优先 级 二 二 6 5 4 3 2 | 0 
负荷 值 0 1 3 6 [过 25 50 100 


最 后 , 交换 值 (swappiness) 是 一 个 用 户 定 义 常 数 , 通常 为 60。 系 统管 理 员 可 以 在 /proc/sys/ 
vm/swappiness 文件 内 修改 这 个 值 ， 或 用 相应 的 sysctl () 系 统 调用 调整 这 个 值 。 


只 有 当 管 理 区 交换 倾向 值 大 于 等 于 100 时 ,页 才 从 进程 地 址 空间 回收 。 那 么 当 系统 管理 
员 将 交换 值 设 为 0 时 ，PFRA 就 不 会 从 用 户 态 地 址 空间 回收 页 ， 除 非 管 理 区 的 前 一 次 优 
先 级 为 0 (这 不 大 可 能 发 生 )。 如 果 系 统管 理 员 将 交换 值 设 为 100， 那 么 PFRA 每 次 调用 
该 国 数 时 都 会 从 用 户 态 地 址 空间 回收 页 。 


下 面 是 refill_inactive_zone(}) 函 数 执 行 步骤 的 一 个 简要 说 明 ， 


1.。 调用 lru_ada_araint) ,把 仍 留 在 pagevec 数 据 结构 中 的 所 有 页 移入 活动 与 非 活动 链表 。 
2 获得 zone->lru_lock 自 旋 锁 。 


3. ”对 zone->active_list 中 的 页 进行 首次 扫描 ， 从 链表 的 底部 开始 向 上 , 一 直 执 行 
下 去 , 直到 链表 为 空 或 sc->nr_to_scan 的 页 扫描 完毕 。 在 这 一 次 循环 中 每 扫描 一 
页 ， 国 数 就 将 引用 计数 器 加 1, 从 zone->active_list 中 删除 页 描述 符 , 把 它 放 在 
临时 局 部 链表 1_hola 中 。 但 是 如 果 页 框 引 用 计数 器 是 0, 则 把 该 页 放 回 活动 链表 。 
实际 上 ， 引 用 计数 器 为 0 的 页 框 一 定 属于 管理 区 的 伙伴 系统 , 但 释放 页 框 时 , 首先 
递减 使 用 计数 器 ， 然 后 将 页 框 从 LRU 链表 删除 并 插入 伙伴 系统 链表 。 因 此 在 一 个 
很 小 的 时 间 段 ，PFRA 可 能 会 发 现 LRU 链表 中 的 空闲 页 。 


把 已 扫描 的 活动 页 数 筷 加 到 zone->pages_scanned。 

从 zone->nr_active 中 减 去 移 人 局 部 链表 1_hold 中 的 页 数 。 

释放 zone->lru_lock 自 旋 锁 。 

计算 交换 倾向 值 ( 见 上 面 )。 

8， 对 局 部 链表 1 _hold 中 的 页 运行 第 二 次 循环 。 这 次 循环 的 目的 是 : 把 其 中 的 页 分 到 
两 个 子 链 表 1 _active 和 1_inactive 中 。 属 于 某 个 进程 用 户 态 地 址 空间 的 页 ( 即 


page->_mapcount 为 非 负数 的 页 ) 被 加 入 1_active 的 条 件 是 ;交换 倾向 值 小 于 100， 
或 者 是 匿名 页 但 叉 没 有 油 活 的 交换 区 ， 或 者 应 用 于 该 页 的 page_referenced() 函 


和 


和 和 





数 返 回 正 数 ( 正 数 表示 该 页 最 近 被 访问 过 )。 而 任何 其 他 情形 下 ， 页 被 加 入 
]_inactive 链表 ( 注 6)。 

9. 获得 zone->lru_lock 自 旋 锁 ，。 

1j0. 对 局 部 链表 1_inactive 中 的 页 执行 第 三 次 循环 。 把 页 移 人 zone->inactive_1ist 


链表 ， 更 新 zone->nr_inactive 字 段 ， 同 时 递减 被 移 页 框 的 使 用 计数 器 ， 从 而 抵 
消 第 3 步 中 增加 的 值 。 


11. 对 局 部 链表 1_active 中 的 页 执行 第 四 次 也 是 最 后 一 次 循环 。 把 页 移 人 zone 
->active_list 链表 , 更 新 zone->nr_active 字 段 ， 同 时 递减 被 移 页 框 的 使 用 计 
数 器 ， 从 而 抵消 第 3 步 中 增加 的 值 。 


12. 释放 上 自 旋 锁 zone->lru_lock 并 返回 。 


注意 , refi1l1_inactive_zonef) 只 检查 用 户 态 地 址 空间 页 的 PG_referenced 标 志 ( 见 
第 8 步 )。 相反 的 情况 是 , 页 在 活动 链表 的 底部 , 也 就 是 较 长 时 间 以 前 被 访问 过 , 那么 不 
大 可 能 会 在 近期 被 访问 。 另 外 ， 如 果 页 属于 某 个 用 户 态 进程 且 最 近 被 使 用 过 ,那么 函数 
也 不 会 将 页 从 活动 链表 删除 。 


内 存 上 紧缺 回收 


当 内 存 分 配 失 败 时 激 医 内 存 紧缺 回收 。 在 图 17-3 中 ， 在 分 配 VFS 绿 冲 区 或 缓冲 区 首部 
时 ， 内 核 调 用 free_more_memory ()， 而 当 从 伙伴 系统 分 配 一 个 或 多 个 页 框 时 ， 调 用 
try to free pages|(), 


free_more_memory() 函数 
free_more_memory () 函数 执行 如 下 操作 : 


1， 调用 wakeup_bdflush() 唤 醒 一 个 pdfiush 内 核 线程 ， 并 触发 页 高 速 缓存 中 1024 个 
脏 页 的 写 操 作 (参见 第 十 五 章 的 “pdflush 内 核 线程 ”一 节 )。 写 脏 页 到 磁盘 的 操作 
将 最 终 使 包含 缓冲 区 、 缓 冲 区 首部 和 其 他 VFS 数据 结构 的 页 框 成 为 可 释放 的 。 


2. ”调用 sched_yield() 系 统 调用 的 服务 例 程 ， 为 pdfiush 内 核 线程 提供 执行 机 会 。 
3. ”对 系统 的 所 有 内 存 节 点 ,启动 一 个 循环 [参见 第 八 章 的 “ 非 一 致 内 存 访问 (NUMA)” 
注 6; 注意 ,不 属于 任何 用 户 态 地 址 空间 的 页 被 移动 到 非 活动 链表 中 、 但 是 由 于 它 的 PG_ 


refterened 标 志 没 有 清 0， 所 以 对 该 页 的 第 一 次 访问 导致 函数 mark_page_accessea1() 
把 该 页 移 回 活动 链表 中 【参见 图 17-4) 。 
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一 节 ]。 对 每 一 个 节点 ， 调 用 try_to_free_pages () 国 数 ， 传 给 它 的 参数 是 一 个 
“紧缺 ”内 存 管 理 区 链表 (在 80x86 体 系 结 构 中 是 ZONE_DMR 和 ZONE_NORMRAL ， 
参见 第 八 章 的 “内 存 管理 区 ”一 节 )。 


try_to_free_pages{() 函 数 
trv_to_free_pages1() 国 数 接收 如 下 三 个 参数 ; 


ZONEeS 
要 回收 的 页 所 在 的 内 存 管 理 区 链表 (参见 第 八 章 的 “内 存 管理 区 ”一 节 )。 
gfp_mask 
用 于 失败 的 内 存 分 配 的 一 组 分 配 标志 (参见 第 八 章 的 “分 区 页 框 分 配器 ”一 节 )。 


Order 


没有 使 用 。 


该 国 数 的 目标 就 是 通过 重复 调用 shrink_caches() 和 shrink_slab() 国 数 释放 至 少 32 
个 页 框 ， 每 次 调用 后 优先 级 会 比 前 一 次 提高 。 有 关 的 辅助 函数 可 以 获得 scan_control 
类 型 描述 符 中 的 优先 级 ， 以 及 正在 进行 的 扫描 操作 的 其 他 参数 ( 见 前 面 的 表 17-2)。 最 
低 的 . 也 是 初始 的 优先 级 是 12, 而 最 高 的 、 也 是 最 终 的 优先 级 是 0。 如 果 try_to_free_ 
pages () 没 能 在 某 次 ( 共 13 次 ) 调用 shrink_caches(1 和 shrink_slab() 国 数 时 成 功 
回收 至 少 32 个 页 框 ，PFRA 就 要 黔 驴 技 穷 了 。 最 后 一 招 : 删除 一 个 进程 ， 释 放 它 的 所 有 
页 框 。 这 一 操作 由 out_of_memory() 国 数 执行 《参见 本 章 后 面 “ 内 存 不 足 删除 程序 ” 
人 


该 函数 主要 执行 如 下 步 又 : 

1. ”分配 和 初始 化 一 个 scan_control 描 述 符 ， 具 体 说 就 是 把 分 配 掩 码 gfp_mask 存 人 
gfp_mask 字 段 。 

2. 对 zones 链 表 中 的 每 个 管理 区 ， 将 管理 区 描述 符 的 temp_priority 字 段 设 为 初始 
优先 级 12， 而 且 计 算 管 理 区 LRU 链表 中 的 总 页 数 。 

3. 从 优先 级 12 到 0， 执行 最 多 13 次 的 循环 ， 每 次 达 代 执行 如 下 子 步骤 ， 
a. 更 新 scan_control 描述 符 的 一 些 字段 。 具体 地 ， 把 用 户 态 进程 的 总 页 数 存 入 


nr_mappea 字段 ， 把 本 次 友 代 的 当前 优先 级 存 人 prioricty 字 段 。 而 且 将 
nr_scanned 和 mr_reclaimeda 字 段 设 为 0。 


b. ”调用 shrink_caches(), 传 给 它 zones 链 表 儿 scan_control 扒 述 符 地 址 作为 
参数 。 这 个 函数 扫 找 管理 区 的 非 活动 页 ( 见 下 面 )。 
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c， 调用 shrink_slab{) 从 可 压缩 内 核 高速 缓 存 中 回收 页 (参见 后 向 “回收 可 压缩 
磁盘 高速 缓存 的 页 ”一 节 )。 

d， 如果 current->reclaim_stace 非 空 , 则 将 slab 分 配器 高 速 缓 存 中 回收 的 页 数 
(该 数 存放 在 一 个 由 进程 描述 符 字 段 指 向 的 小 型 数据 结构 中 ) 追加 到 
scan_control 描述 符 的 nr_reclaimed 字 7 段 。 在 调用 try_to_free_pages{() 
国 数 之 前 ，_”_alloc_pages1) 国 数 建立 current->reclaim_state 字 段 ， 并 
在 结束 后 马上 清除 该 字段 (不 可 思议 的 是 ，free_more_memory () 不 设置 这 个 
字段 )。 


e, : 如 果 已 达 目 标 (scan_control 描述 符 的 nr_reclaimed 字 段 大 于 等 于 32), 则 
跳出 循环 到 第 4 步 。 


f. 如果 未 达 目 标 , 但 已 扫描 完成 至 少 49 页， 函数 则 调用 wakeup_baflush() 微 活 
pdfiush 内 核 线 程 ， 并 将 页 高 速 缓存 中 的 一 些 脏 页 写 人 磁盘 (参见 第 十 五 章 的 
“搜索 要 刷新 的 脏 页 ”一 节 )。 


g. 如 果 函 数 已 完成 4 次 迭代 而 又 未 达 目 标 , 则 调用 blk_congestion_wait1() 挂 起 
进程 ， 一 直到 没有 拥塞 的 WRITE 请 求 队列 或 100ms 超时 已 过 (参见 第 十 四 章 
的 “请 求 描 述 符 ”一 闻 )。 


4. 把 每 个 管理 区 描述 符 的 prev_priori ty 字段 设 为 上 一 次 调用 shrink_caches() 使 
用 的 优先 级 ， 读 值 存放 在 管理 区 描述 符 的 temp_priority 字段 。 


5. 如果 成 功 回 收 则 返回 1， 否则 返回 0。 


shrink_caches() 函 数 


shrink_caches (} 函数 由 try_to_free_pages() 调 用 ， 它 有 两 个 参数 ， 内 存 管 理 区 链 
表 zones 和 scan_control 摘 述 符 地 址 sc 。 


该 函数 的 目的 只 是 对 zones 链 表 中 的 每 个 管理 区 调用 shrink_zone1() 国 数 。 但 对 给 定 管理 
区 调用 shrink_zone() 之 前 ，shrink_caches() 国 数 用 sc->prioricty 字 段 的 值 更 新 管理 
区 描述 符 的 temp_priority 字 段 , 这 就 是 扫描 操作 的 当前 优先 级 。 而 且 如 果 PFRA 的 上 一 
次 调用 优先 级 高 于 当前 优先 级 ， 即 这 个 管理 区 进行 页 框 回收 变 得 更 难 了， 那么 
shrink_caches () 把 当前 优先 级 拷贝 到 管理 区 描述 符 的 prev_priority。 最 后 , 如 果 管 理 
区 描述 和 罕 中 的 all_unreclaimable 标 志 置 位 , 且 当 前 优先 级 小 于 12, 则 shrink_caches 1() 
不 调用 shrink_zone() ， 也 就 是 说 , 在 try_to_free_pages |(}) 的 第 一 迭代 中 不 调用 
shrink_caches()。 当 PFRA 确定 一 个 管理 区 都 是 不 可 回收 页 , 扫描 该 管 理 区 的 页 纯粹 是 
浪费 时 间 时 ， 则 将 all_unreclaimable 标 志 置 位 。 
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shrink_zone() 函 数 


shrink_zonel() 国 数 有 两 个 参数 : zone 和 sc。zone 是 指向 struct_zone 描 述 符 的 指 
针 ， sc 是 指向 scan_control 描 述 符 的 指针 。 该 函数 的 目标 是 从 管理 区 非 活动 链表 回收 
32 页 。 它 每 次 在 更 大 的 一 段 管 理 区 非 活动 链表 上 重复 调用 辅助 函数 shrink_cache () ， 
以 期 达到 目标 。 而 且 shrink_zone() 重 复 调用 reftil11_inactive_zonel) 国 数 来 补充 管 
理 区 非 活 动 链表 [参见 前 面 “ 最 近 最 少 使 用 (LRU) 链表 ”一 节 ]。 


管理 区 描述 符 的 nr_scan_active 和 nr_scan_inactive 字 段 在 这 里 起 到 很 重要 的 作用 。 
为 提高 效率 ,函数 每 批 处 理 32 页 。 因 此 如 果 国 数 在 低 优先 级 运行 (对 应 sc->priority 
的 高 值 )， 且 某 个 LRU 链表 中 设 有 足够 的 页 ， 函 数 就 跳 过 对 这 个 链表 的 扫描 。 但 因此 紫 
过 的 活动 或 不 活动 页 数 就 分 别 存放 在 nr_scan_active 或 nr_scan_inactive 中 ,这 样 
沙 数 下 次 执行 时 再 处 理 这 些 跳 过 的 页 。 


shrink_zone{) 函 数 的 具体 执行 步骤 如 下 : 


1. 递增 zone->nr_scan_active, 增 量 是 活动 链表 (zone->nr_active) 的 一 小 部 分 。 
实际 增 量 取决 于 当前 优先 级 ， 其 范围 是 : zone->nr_accivel2 “上 到 zone 
->nr_active/2”( 即 管理 区 内 的 总 活动 页 数 )。 

2. 递增 zone->nr_scan_inactive, 增 量 是 非 活 动 链 表 (zone->nr_inactive) 的 一 
小 部 分 。 实 际 增 量 取决 于 当前 优先 级 , 其 范围 是 : zone->nr_inactive/2 “到 zone 
->nr jnactive, 

3. 如 果 zone->nr_scan_active 字段 大 于 等 于 32， 消 数 就 把 该 值 赋 给 局 部 变量 
nr_active， 并 把 该 字段 设 为 0， 否 则 把 nr_active 设 为 0。 

4. 如 果 zone->nr_scan_inactive 字 7 段 大 于 等 于 32， 函 数 就 把 读 值 屿 给 局 部 变量 
nr_inactive， 并 把 该 字段 设 为 0， 否 则 把 nr_inactive 设 为 0。 

5.， 设 定 scan_control 描述 符 的 sc->nr_to_reclaim 字 段 为 32。 

6. 如果 nr_active 和 nr_inactive 都 为 0, 则 无 事 可 做 ,函数 结束 。 这 不 常见 , 用户 
态 进程 没有 被 分 配 到 任何 页 时 才 可 能 出 现 这 种 情形 。 

7 如果 nr_active 为 正 ， 则 补充 管理 区 非 活 动 链表 : 


SC->Nnr_to_scan = minl(lnr active, 42) 
nr active -= Sc->nr_to_scan 
refill inactive zone(zone, sc) 


8. 如 果 nr_inactive 为 正 ， 则 尝试 从 非 活 动 链表 回收 最 多 32 页: 


SC-»nr to _ scan = mininr_inactive, 32) 
nr_inactive == SC->nr_ to_scan 
shrink cache (zone, sc) 
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9， 如果 shrink_zone() 成 功 回 收 32 页 (现在 sc->nr_to_reclaim 小 于 等 于 0)， 则 
结束 ; 否则 ， 跳 回 第 6 步 。 


shrink_cache() 函 数 


shrink_cache() 国 数 又 是 一 个 辅助 函数 ， 它 的 主要 目的 就 是 从 管理 区 非特 动 链表 取出 

一 组 页 , 把 它们 放 入 一 个 临时 链表 , 然后 调用 shrink_1list {) 函数 对 这 个 链表 中 的 每 一 

页 进行 有 效 的 页 框 回 收 操作 。shrink_cache1() 国 数 的 参数 与 shrink_zones1() 一 样 , 都 

是 zone 和 sc， 执 行 的 主要 步骤 如 下 : 

1. 调用 lru_add_drain(), 把 仍然 在 pagevec 数 据 结 构 中 的 页 移入 话 动 与 非 活 动 链 
表 [ 参 见 本章 前 面 “最 近 最 少 使 用 (LRU) 链表 ”一 节 ]。 

2.， 获得 zone->lru_lock 自 旋 锁 。 


3. ”处 理 非 活动 链表 中 的 页 (最 多 32 页 ), 对 于 每 一 页 ,函数 递增 使 用 计数 器 ， 检查 该 
页 是 否 不 会 被 释放 到 伙伴 系统 {参见 refill_inactive_zone() 的 第 3 步 的 讨论 )， 
把 页 从 管理 区 非 活 动 链表 移 人 一 个 局 部 链表 。 


4. 把 zone->nr_inactive 计 数 器 的 值 减 去 从 非 活 动 链 表 中 删除 的 页 数 。 
5.， 递增 zone->pages_scanned 计 数 器 的 值 , 增 量 为 在 非 活动 链表 中 有 效 检查 的 页 数 。 
6. 释放 zone->lru_lock 自 旋 锁 。 


7. 调用 shrink_list() 国 数 ， 传 给 它 上 面 第 3 步 中 搜集 的 页 (在 局 部 链表 中 )。 下 面 
将 详细 讨论 (你 一 定 很 期 盼 的 讨论 )。 


8. 把 sc->nr_to_reclaim 字 段 的 值 减 去 由 shrink_ listf) 实 际 回收 的 页 数 。 
9， 再 次 获取 zone->lru_lock 自 旋 锁 。 


10. 把 局 部 链表 中 shrink_list1() 没 有 成 功 释放 的 页 放 回 非 话 动 或 活动 链表 。 注 意 ， 
shrink_list() 有 可 能 置 位 PG_active 标 志 ， 从 而 将 某 页 标记 为 活动 页 。 这 一 操 
作 使 用 pagevec 数 据 结 构 对 一 组 页 进行 处 理 [ 参 见 本 章 前 面 “ 最 近 最 少 使 用 (LRU) 
链表 ”一 节 ]。 

11. 如 果 国 数 扫描 的 页 数 至 少 是 sc->nr_to_scan, 且 如 果 设 有 成 功 回收 目标 页 数 ( 即 
sc->nr_to_reclaim 仍 然 大 于 0)， 则 跳 回 第 3 步 。 


12. 释放 zone->lru_lock 自 旋 锁 并 结束 。 


shrink_list() 和 函数 


我 们 现在 讨论 页 框 回 收 算法 的 核心 部 分 。 从 try_to_free_pages() 到 shrink_cache() 同 
数 , 前 面 所 述 这 些 函 数 的 目的 就 是 找到 一 组 适合 回收 的 候选 页 。shrink_list () 函数 则 从 
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参数 page_list 链 表 中 党 试 回收 这 些 页 ， 该 函数 的 第 二 个 参数 sc 是 指向 scan_control 
描述 符 的 指针 。 当 shrink_list |() 返 回 了 时 ，page_list 链表 中 剩 下 的 是 无 法 回收 的 页 ，。 


困 数 执行 步 难 如 下 : 
1， 如 时 当前 进程 的 need_resched 字段 置 位 ， 则 调用 schedule!()， 


2. 执行 一 个 循环 , 处 理 page_1list 链 表 中 的 每 一 页 。 对 其 中 每 个 元 素 , 从 链表 中 删除 
页 描述 符 并 尝试 回收 该 页 框 ,如果 由 于 某 种 原因 页 框 不 能 释放 , 则 把 该 页 描述 符 插 
人 一 个 局 部 链表 。 


3. 现在 page_list 已 空 ， 国 数 再 把 页 描述 符 从 局 部 链表 移 回 page_list 链表 。 
4. 递增 sc->nr_reclaimed 字 段 ， 增 量 为 第 2 步 中 回收 的 页 数 ， 并 返回 这 个 数 。 


当然 , shrink_list() 函 数 尝试 回收 页 框 的 代码 确实 很 有 意思 。 图 17-5 是 这 段 代 码 的 流 
程 图 。 


shrink_list () 处 理 的 每 个 页 杠 只 可 能 有 三 种 结果 ， 


. 调用 free_cold_pagel) 国 数 ， 把 页 释放 到 管理 区 伙伴 系统 (参见 第 八 章 中 “每 
CPU 页 框 高 速 缓存 ”一 节 ) ， 因 此 被 有 效 回收 。 

。 ”页 没有 被 回收 ， 因 此 被 重新 揪 人 page_list 链表 。 但 是 shrink_list () 假 设 不 久 
还 能 回收 该 页 。 因 此 函数 让 页 描述 符 的 PG_active 标 志保 持 请 0, 这 样 页 将 被 放 回 
内 存 管 理 区 的 非 活 动 链 表 (参见 前 面 shrink_cache() 国 数 描述 的 第 9 步 )。 这 种 
情况 对 应 于 图 17-5 中 标 为 “INACTIVE ”的 小 方 框 。 


*。 页 没有 被 回收 ， 因 此 被 重新 插入 Page_list 链表 。 但 是 ， 或 是 页 正 被 使 用 ， 或 是 
shrink_listf() 假 设 近 期 无 法 回收 该 页 。 国 数 将 页 描述 符 的 PG_active 标志 置 位 ， 
这 样 页 将 被 放 回 内 存 管 理 区 的 活动 链表 。 这 种 情况 对 应 于 图 17-5 中 标 为 ACTIVE” 
的 小 方 框 。 


shrink_listf) 国 数 不 会 去 回收 锁定 页 (PG_locked 置 位 ) 与 写 回 页 (PG_writeback 
置 位 )。shrink_list() 调 用 page_referenced{) 国 数 检 查 该 页 是 否 最 近 被 引用 过 ， 参 
见 本 章 前 面 “ 最 近 最 少 使 用 (LRU) 链表 ”一 节 中 的 描述 。 

要 回收 匿名 页 ,就 此 须 把 它 加 人 交换 高 速 缓存 , 那么 就 必须 在 交换 区 为 它 保 留 一 个 新 页 
槽 (slot)。 参 见 本 章 后 面 “交换 ”一 节 的 详细 讨论 。 


如 采 页 在 茶 个 进程 的 用 户 态 地 址 空间 (页 描述 符 的 _mapcount 字段 大 于 等 于 0)， 则 
shrink_list1{() 调 用 try_co_unmap() 寻 找 引 用 该 页 框 的 所 有 页 表 项 《参见 本 章 前 面 
“ 反 回 上 映射 ”一 节 )。 当 然 ， 只 有 当 这 个 函数 返回 SWAP_SUCCESS 时 ， 回 收 才 可 继续 。 


如 果 是 脏 页 ， 则 写 回 磁 鼻 前 不 能 回收 。 为 此 ，shrink_list () 使 用 pageout () 函 数 (后 面 
会 加 以 说 明 )。 只 有 当 pageout{) 不 必 进 行 写 操作 或 写 操作 不 久 将 结束 时 , 回收 才 可 继续 。 
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从 页 高 速 缓存 删除 


17-5: shrink_list() 国 数 的 页 框 回收 流程 


如 果 页 包含 VES 缓 冲 区 , 则 shrink_list() 调 用 trv_ to_release_page1() 释 放 关 联 的 
缓冲 区 首部 (参见 第 十 五 章 中 “释放 块 设 备 缓冲 区 页 ”一 节 )。 


最 后 ， 如 果 一 切 顺 利 ，shrink_1list () 就 检查 页 的 引用 计数 器 。 车 等 于 2， 那 么 这 两 个 拥 
有 者 就 是 :页 高 速 缓存 (如 果 是 匿名 页 , 则 为 交换 高 速 缓存 ) 和 PFRA 自 己 (shrink_cache () 
纯 数 中 第 3 步 中 会 递增 引用 计数 器 ， 参 见 前 面 ) 。 这 种 情况 下 ,如 果 页 仍然 不 为 胜 ,， 则 页 可 
以 回收 。 为 此 ， 首 先 根据 页 描述 符 的 PEG_swapcache 标志 的 值 ， 从 页 高 速 缓存 或 交换 高 速 
绥 存 删除 该 页 ， 然 后 ， 执 行 国 数 free_colqd_page |()。 
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pageout() 函 数 


当 一 个 脏 页 必须 写 向 磁盘 了 时, shrink_list () 调 用 pageout () 国 数 。 国 数 执行 的 主要 步 
又 如 下 ， 


1. 检查 页 存放 在 页 高 速 缓存 还 是 交换 高 速 缓存 中 (参见 本 章 后 面 “ 交 换 高 速 缓存 ”一 
节 )。 进 一 步 检查 该 页 是 否 由 页 高 速 缓存 【或 变换 高 速 缓存 ) 与 PFRA 拥有 。 如 果 
检查 失败 , 则 返回 PAGE_KEEP【( 如 果 设 有 被 shnrink_listl) 回 收 ,， 则 写 页 到 磁盘 
就 没有 意义 了 )。 


2. 检查 address_space 对 象 的 writepage 方法 是 否 已 定义 。 如 果 没 有 ， 则 返回 
PAGE_ACTIVATE, 


3. ”检查 当前 进程 是 否 可 以 癌 块 设备 (与 address_space 对象 对 应 ) 请 求 队列 发 出 写 
请 求 。 实 际 上 ，kswapd 和 pdflush 内 核 线程 总 会 发 出 写 请 求 ， 而 普通 进程 只 有 在 
请 求 队列 不 拥塞 的 情况 下 才能 发 出 写 请 求 , 除非 current->backing_qdev_info 字 
段 指 同 块 设备 的 backing_dev_info 数 据 结 构 (参见 第 十 六 章 “ 写 入 文件 ”一 布 中 
generic_file aio_write_nolock() 国 数 朱 述 的 第 3 步 )。 


4， ”检查 是 否 仍然 是 脏 页 。 如 果 不 是 则 返回 PAGE_CLEAN。 

5. 建立 一 个 writeback_control 措 述 和 罕 , 调用 address_space 对 象 的 writepage 方 
法 以 启动 一 个 写 回 操作 (参见 第 十 六 章 中 “将 脏 页 写 到 磁盘 ”一 市 )。 

6. ”如果 writepage 方 法 返回 错误 码 ， 则 函数 返回 PAGE_ACTIVATE。 


7. 返 问 PAGE_SUCCESS 。 


回收 可 压缩 磁盘 高 速 缓存 的 页 

我 们 从 前 面 的 章节 中 知道 内核 在 页 高 速 缓存 之 外 还 使 用 其 他 磁盘 高 速 缓存 ,例如 , 目 
录 项 高 速 缓存 与 索引 节点 高 速 缓存 (参见 第 十 二 章 “目录 项 高 速 缓存 ")。 当 要 回收 其 中 
的 页 框 时 ，PFRA 就 必须 检查 这 些 磁盘 高 速 缓存 是 否 可 压缩 。 


PFRA 处 理 的 每 个 磁盘 高 速 缓存 在 初始 化 时 必须 注册 一 个 shrinker 国 数 。shrinker 国 数 有 
两 个 参数 : 待 回收 页 框 数 和 一 组 GFP 分 配 标志 。 国 数 按照 要 求 从 磁盘 高 速 缓存 回收 页 ， 
然后 返回 仍然 留 在 高 速 缓存 内 的 可 回收 页 数 。 


set_shrinker1() 国 数 同 PFRA 注 册 一 个 shrinker 国 数 。 该 国 数 分 配 一 个 shrinker 类 型 
的 描述 符 ， 在 该 描述 符 中 存放 shrinker 函数 的 地 址 ， 然 后 把 描述 符 插入 一 个 全 局 链表 ， 
该 链表 存放 在 shrinker_ 1ist 全 局 变量 中 ， set_shrinkert) 国 数 还 初始 化 shrinker 
摘 述 符 的 seeks 字 段 ， 通 俗 地 说 ， 这 个 字段 表示 : 在 高 速 缓存 中 的 元 素 一 旦 被 删除 ， 那 
么 重建 一 个 所 需 的 代价 。 
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在 Linux 2.6.11 中 ， 疝 PFRA 注册 的 磁盘 高 速 缓存 很 少 。 除 了 目录 项 高 速 缓 存 和 索引 市 
点 高 速 缓存 之 外 , 注册 shrinker 国 数 的 只 有 磁盘 限额 层 .、 文件 系统 元 信息 块 高 速 缓存 ( 主 
要 用 于 文件 系统 扩展 属性 ) 和 XFS 日 志文 件 系 统 。 


从 可 压 织 磁 盘 高 速 绥 存 回收 页 的 PFRA 国 数 叫 作 shrink_slab() 国 数 名 有 点 误导 ， 因 
为 该 函数 与 slab 分 配器 高 速 缓存 没什么 关系 )。 它 由 try_to_free_pages()( 在 前面 “内 
存 紧缺 回收 ”一 节 中 有 描述 ) 和 balance_pgdat () 调 用 (在 后 面 和 的 “周期 回收 ”一 节 会 
有 摘 述 )。 


对 于 从 可 压缩 磁盘 高 速 缓存 回收 的 代价 与 及 从 LRU 链表 回收 的 代价 (由 shrink_list() 执 
行 ) 之 间 ，shrink_slab() 国 数 试图 作出 一 种 权衡 。 实 际 上 ， 了 函数 扫 描 shrinker 描述 符 
的 链表 , 调用 这 些 shrinker 函数 并 得 到 磁盘 高 速 缓存 中 总 的 可 回收 页 数 。 然 后, 函数 再 一 
次 扫 摘 shrinker 瓜 述 符 的 链表 ， 对 于 每 个 可 压缩 磁盘 高 速 缓存 ， 函 数 推算 出 待 回 收 页 框 
数 。 推 算 考 虑 的 因素 有 : 磁盘 高 速 缓 存 中 总 的 可 回收 页 数 、 在 磁盘 高 速 绥 存 中 重建 一 页 
的 相关 代价 ,LRU 链表 中 的 页 数 ,然后 再 调用 shrinker 函 数 尝试 回收 一 组 页 (至 少 128 页 )。 


因 访 幅 所 限 ， 我 们 只 简单 讨论 目录 项 高 速 缓 存 和 索引 市 点 高 速 缓存 的 shrinker 函数 。 


从 目录 项 高 速 缓存 回收 页 框 


shrink_dcache _memorv1) 国 数 是 目录 项 高 速 缓 存 的 shrinker 国 数 。 它 搜索 高 速 缓存 中 
的 未 用 目录 项 对 象 ， 即 没有 被 任何 进程 引用 的 目录 项 对 象 , 然后 将 它们 释放 (参见 第 十 
二 章 的 “目录 项 对 象 ”一 节 )。 


由 于 目录 项 高 速 缓 存 对 象 是 通过 slab 分 配器 分 配 的 , 因此 shrink_dcache_memory 1() 国 
数 可 能 导致 一 些 slab 变 成 空 亲 的 ， 这 样 有 些 页 框 就 可 以 被 cache_reap() 回 收 (参见 本 
章 后 面 “ 周 期 回收 ”一 节 )。 此 外 ， 目 录 项 高 速 缓存 起 索引 节点 高 速 缓存 控制 器 的 作用 ， 
因此 ， 当 一 个 目录 项 对 象 被 释放 时 ,存放 相应 索引 节点 对 象 的 页 就 可 以 变 为 未 用 , 而 最 
终 被 释放 。 


shrink_dcache_memory {() 国 数 接收 两 个 参数 : 待 回 收 页 框 数 和 GFP 掩 码 。 一 开始 ,， 它 
检查 GFP 掩 码 中 的 __GFP_FS 标 志 位 是 否 清 0， 如 果 是 则 返回 -1, 因为 释放 目录 项 可 能 
触发 基于 磁盘 文件 系统 的 操作 。 通 过 调用 prune_dcache(}, 就 可 以 有 效 地 进行 页 框 回 
收 。 该 函数 扫描 未 用 目录 项 链表 (该 链表 的 头 部 存放 在 dentry_unused 变 量 中 ), 一 直 
到 获得 请 求 数量 的 释放 对 象 或 整个 链表 扫描 完毕 。 对 每 个 最 近 未 被 引用 的 对 象 ， 国 数 执 
行 如 下 步骤 : 


1. 把 目录 项 对 象 从 目录 项 散 列表 ,从 其 父 ' 目 录 中 的 目录 项 对 象 链表 、 从 拥有 者 索引 市 
点 的 目录 项 对 象 链表 中 删除 。 


回收 页 框 0 


2， 调用 d_iput 目录 项 方法 (如 果 定 义 ) 或 者 iput () 函数 减少 目录 项 的 索引 节点 的 
引用 计数 器 。 


3. ”调用 目录 项 对 象 的 d_release 方 法 (如果 定义 )。 


4. ”调用 call_rcu() 函 数 以 注册 一 个 会 删除 目录 项 对 象 的 回调 函数 {参见 第 五 章 “ 读 
一 措 风 一 更 新 (RCU)” 一 节 ]， 该 回调 函数 又 调用 kmem_cache_free() 把 对 象 释 
放 给 slab 分 配器 (参见 第 八 章 “从 高 速 缓存 中 释放 slab” 一 节 )。 


5， 减少 父 目录 的 引用 计数 器 。 


最 后 ， 依 据 仍 然 留 在 目录 项 高 速 缓存 中 的 未 用 目录 项 数 ，shrink_dcache_memorvy () 返 
回 一 个 值 。 更 准确 地 说 ， 返 回 值 是 未 用 目录 项 数 乘 以 100 除 以 sysct1_vfs_cache_ 
pressure 全 局 变量 的 值 。 该 变量 的 系统 默认 值 是 100, 因此 返回 值 实际 就 是 未 用 目录 项 
数 。 但 是 通过 修改 文件 /procwsysmwv 庆 _cache_pressure 或 通过 有 关 的 sysctl1) 系 统 调 
用 ， 系 统管 理 员 可 以 改变 这 个 变量 值 。 把 值 改 为 小 于 100， 则 使 shrink_slab() 从 目录 
项 高 速 缓存 (与 索引 节点 高 速 缓存 ， 见 下 一 节 ) 回收 的 页 少 于 从 LRU 链表 中 回收 的 页 。 
反之 ， 如 把 值 改 为 大 于 100， 则 使 shrink_slab{) 从 目录 项 高 速 缓 存 回收 的 页 多 于 从 
LRU 链表 中 回收 的 页 。 


从 索引 节点 高 速 缓存 回收 页 框 
shrink_icache_memory{) 国 数 被 调用 来 从 索引 节点 高 速 缓存 删除 未 用 索引 节点 对 象 。 
“未 用 ”就 是 指 索引 节点 不 再 有 一 个 控制 目录 项 对 象 。 这 个 国 数 非常 类 似 于 刚 描 述 的 
shrink_dcache_memory () 。 它 检查 gfp_mask 参数 的 __GFP_FS 位 ， 然 后 调用 
prune_icache |() ,最 后 与 前 面 一 样 ,依据 仍然 留 在 索引 节点 高 速 缓存 中 的 未 用 索引 节点 
数 和 sysctl_vfs_cache_pressure 变量 的 值 ， 返 回 一 个 值 。 


prune_icache{}) 函 数 又 扫描 ijnode_unused 链表 (参见 第 十 二 章 “ 索 引 节 点 对 象 ” 一 
节 )。 要 释放 一 个 索引 节点 ， 国 数 必 须 释 放 与 该 索引 节点 关联 的 任何 私有 缓冲 区 ， 它 使 
页 高 速 缓 存 内 (引用 该 索引 节点 的 ) 不 再 使 用 的 干净 页 框 无 效 ， 然 后 通过 调用 
clear inode() 和 destroy_inode|() 函 数 来 删除 索引 节点 对 象 。 


周期 回收 

PFRA 用 两 种 机 制 进行 周期 回收 ， kswapd 内 核 线 程 和 cache_reap 国 数 。 前 者 调用 
shrink_zone(} 和 shrink_slab() 从 LRU 链表 中 回收 页 ， 后 者 则 被 周期 性 地 调用 以 便 
从 slab 分 配器 中 回收 未 用 的 slab。 
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kswapd 内 核 线程 


kswapd 内 柜 线 程 是 籼 活 内 存 回 收 的 另外 一 种 机 制 ,为 什么 还 需要 这 个 内 棱 线 程 昵 ?当空 
闲 内 存 变 得 紧缺 并 且 发 出 另 一 个 内 存 分 配 请 求 时 ， 调 用 try_to_free_pages1() 还 不 中 
够 吗 ? 


遗憾 的 是 , 实际 情形 并 非 如 此 。 有 些 内 存 分 配 请 求 是 由 中 断 和 异常 处 理 程序 执行 的 , 它 
们 不 会 阻塞 等 待 释放 页 框 的 当前 进程 , 还 有 , 有 些 内 存 分 配 请 求 是 由 已 经 获得 对 临界 资 
源 互 斥 访问 权限 ， 因 此 就 不 能 激活 MO 数据 传送 的 内 核 控制 路 径 实 现 的 。 在 极 少 的 情况 
下 , 所 有 的 内 存 分 配 请 求 都 是 由 这 种 内 核 控制 路 径 完成 的 , 因此 内 核 将 永远 不 能 释放 空 
内 内 存 。 , 

kswapd 利 用 机 器 空闲 的 时 间 保 持 内 存 空 亲 也 对 系统 性 能 有 良好 的 影响 ,进程 因此 能 很 快 
获得 自己 的 页 。 


每 个 内 存 节 点 对 应 各 自 的 kswapd 内 核 线程 [参见 第 八 章 中 “ 非 一 致 内 存 访 问 (NUMA) 

- 节 ]。 每 个 这 样 的 线程 通常 睡眠 在 等 待 队 列 中 ， 读 等 待 队 列 以 节点 描述 符 的 
kswapd_wait 字段 为 头 部 。 但 是 ,如果 _ _alloc_pages1{) 发 现 所 有 适合 内 存 分 配 的 内 
存 管 理 区 包含 的 空间 页 框 数 低 于 “警告 " 阅 值 (一 个 依据 内 存 管理 区 描述 符 的 pages_low 
和 protection 字段 推算 出 来 的 值 ) 时 ， 那 么 相应 内 存 节点 的 kswapd 内 核 线程 被 激活 
(参见 第 八 章 “管理 区 分 配器 ”一 节 )。 从 本 质 上 说 ， 为 了 避免 更 多 紧张 的 “内 存 紧 缺 ” 
的 情形 ， 内 核 才 开始 回收 页 框 。 


正如 第 八 章 “ 保 留 的 页 框 地 ”一 节 所 述 ， 每 个 管理 区 描述 符 还 包括 字段 pages_min 和 
pages_high。 前 者 表示 必须 保留 的 最 小 空 闪 页 框 数 阅 值 ; 后 者 表示 “安全 ”空闲 页 框 数 
辣 值 ， 即 空 闪 页 框 数 大 于 该 阅 值 时 ， 应 该 停止 页 框 回收 。 


kswapd 内 核 线程 执行 kswapd() 函数 。 内 核 线程 被 初始 化 的 内 容 是 ; 把 线程 绑 定 到 访问 
内 存 节 点 的 CPU， 再 把 reclaim_state 描 述 符 地 址 存 人 进程 描述 符 的 current- 
>reclaim_state 字 段 (参见 本 章 前 面 try_to_free_pages1() 国 数 的 描述 中 的 第 3d 步 )， 
把 current->flags 字 段 的 PF_MEMALLOC 和 PF_KSWAP 标 志 置 位 , 其 含义 是 进程 将 
收 内 存 , 运行 时 允许 使 用 全 部 可 用 空 闪 内 存 。 每 当 kswapd 内 核 线 程 被 吃 醒 ,kswapd () 
国 数 执行 下 列 主 要 操作 


1. ”调用 finish_wait () 从 节点 的 kswapa_wait 等 待 队列 删除 内 核 线程 (参见 第 三 章 
中 “如 何 组 织 进程 ”一 节 )。 
2. ”调用 balance_pgdat () 对 kswapd 的 内 存 节 点 进行 内 存 回收 ( 见 下 面 )。 


3. 调用 prepare_to_wait{) 把 进程 设 成 TASK_INTERRUPTIBLE 状 态 , 并 让 它 在 节 
点 的 kswapa_wait 等 待 队列 中 睡眠 。 
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4. ”调用 schedule{)il CPU 处 理 一 些 其 他 可 运行 进程 。 
balance_pgdat () 函数 又 执行 下 面 的 主要 步 又 : 


1. 建立 scan_control 描述 符 (参见 本 章 前 面 的 表 17-2)。 
2. 把 内 存 节点 的 每 个 管理 区 描述 符 中 的 temp_priority 字 段 设 为 12 (最 低 优先 级 ) 。 
3， 执行 一 个 循环 ， 从 12 到 0 了 最 多 13 次 运 代 。 每 次 返 代 执行 下 列子 步骤 : 
a. 扫描 内 存 管理 区 ， 寻 找 空闲 页 框 数 不 是 的 最 高 管理 区 (从 ZONE_DMA 到 
ZONE_HIGHMEM), 由 zone_watermark_ok1) 国 数 进 行 每 次 的 检测 (参见 第 八 
章 中 “管理 区 分 配器 ”一 节 的 描述 )。 如 果 所 有 管理 区 都 有 大 量 空间 页 框 , 则 踏 
到 第 4 步 。 
b. 对 一 部 分 管理 区 再 一 次 进行 扫描 ， 范 围 是 从 ZONE_DMA 到 第 3a 步 找到 的 管理 
区 。 对 每 个 管理 区 , 必要 时 用 当前 优先 级 更 新 管理 区 描述 符 的 prev_priority 
字段 , 且 连 续 调 用 shrink_zone() 以 回收 管理 区 中 的 页 (参见 前 面 “ 内 存 紧缺 
回收 ”一 节 )。 然 后 ， 调 用 shrink_slab() 从 可 压缩 磁盘 高 速 缓存 回收 页 ( 参 
见 前 面 “ 回 收 可 压缩 磁盘 高 速 缓存 的 页 ”一 节 )。 
c. 如 果 已 有 至 少 32 页 被 回收 ， 则 跳出 循环 至 第 4 步 。 
4. ”用 各 自 temp_priority 字段 的 值 更 新 每 个 管理 区 描述 符 的 prev_priority 字段 。 
5. 如果 仍 有 “内 存 紧 缺 ” 管 理 区 存在 ， 且 如 果 进 程 的 needq_resched 字 段 置 位 ， 则 调 
用 schedule{)。 当 再 一 次 执行 了 时， 跳 到 第 1 步 。 
6. 返回 回收 的 页 数 。 


cache_reap() 函 数 

PFRA 还 必须 回收 slab 分 配器 高 速 缓存 的 页 (参见 第 八 章 “内 存 区 管理 ”一 节 )。 为 此 ， 
它 使 用 cache_reap() 函数 ,该 函数 周期 性 (差不多 每 两 秒 一 次 ) 地 在 预定 事件 工作 队 
列 (参见 第 四 章 “ 工 作 队 列 ” 一 节 ) 中 被 调度 。 它 的 地 址 存放 在 每 CPU 变量 reap_work 
的 func 字段 ， 该 变量 为 work_struct 类 型 。 


cache_reap () 销 数 主要 执行 如 下 步骤 : 


1. ”尝试 获得 cache_chain_sem 信 号 量 , 该 信号 量 保护 slab 高 速 缓存 描述 符 链 表 。 如 
果 信 号 量 已 取得 ,就 调用 schedule_delayed_work() 去 调度 该 函数 的 下 一 次 执行 ， 
然后 结束 。 


2， 否则 , 扫描 存放 在 cache_chain 链 表 中 的 kmem_cache 上 描述 符 。 对 找到 的 每 一 个 
高 速 缓 存 描 述 符 ， 国 数 执行 以 下 步骤 
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如 果 高 速 缓存 摘 述 符 的 SLAB_NO_RERAP 标志 置 位 ， 则 页 框 回收 被 禁止 ， 因 此 
处 理 链 表 中 的 下 一 个 高 速 缓存 。 


: 清空 局 部 slab 高 速 缓存 (参见 第 八 章 的 “空间 slab 对 象 的 本 地 高 速 缓存 ”一 节 )， 


则 会 有 新 的 slab 被 释放 。 

每 个 高 速 缓存 都 有 “收割 时 间 (reap time)”， 读 值 存放 在 高 速 缓存 描述 符 中 
kmem_l1ist3 结 构 的 next_reap 字 7 段 (参见 第 八 章 的 “高 速 缓 存 描述 和 罕 ” 一 节 ) 。 
如 果 jiffies 值 仍 然 小 于 next_reap， 则 继续 处 理 链 表 中 的 下 一 个 高 速 缓存 。 


， 把 存放 在 next_reap 字段 的 下 一 次 “收割 时 间 ” 设 为 ， 从 现时 起 的 4s。 
， 在 多 处 理 器 系统 中 ， 函数 清 空 slab 共享 高 速 缓存 (参见 第 八 章 中 “空间 slab 对 


象 的 本 地 高 速 缓存 ”一 节 )， 那 么 会 有 新 的 slab 被 释放 。 


如 有 新 的 slab 最 近 被 加 和 人 高速 缓 存 ， 即 高 速 缓存 描述 符 中 kmem_1ist3 结构 的 
free_touched 标 志 置 位 ， 那 么 跳 过 这 个 高 速 缓存 ， 继 续 处 理 链表 中 的 下 一 个 
高 速 缓存 。 


:根据 经 验 公 式 计 算 要 释放 的 slabb 数 量 。 基本 上 , 这 个 数 取决 于 高 速 缓存 中 空闲 


对 象 数 的 上 限 和 能 装 入 单个 slab 的 对 象 数 。 


:， 对 高 速 缓存 空闲 slab 链表 中 的 每 个 slab， 重 复 调 用 slab_destroy(), 一 直到 


链表 为 空 或 者 已 回收 目标 数量 的 空闲 slab。 


调用 cona_reschea() 检 查 当 前 进程 的 TIF_NEED_RESCHED 标 志 ， 如 果 该 标 
志 置 位 ， 则 调用 schedule()。 


3. 释放 cache_chain_sem 信 号 量 。 
4， 调用 schedule_delayed_work() 去 调度 该 冰 数 的 下 一 次 执行 ， 然 后 结束 。 
内 存 不 足 删 除 程序 


尽管 PFRA 尽量 保留 一 定 的 空闲 页 框 数 , 但 虚拟 内 存 子 系统 的 压力 可 能 变 得 很 高 , 以 至 
于 所 有 可 用 内 存 耗 尽 。 这 很 快 会 造成 系统 内 的 所 有 工作 冻结 。 为 满足 一 些 紧迫 请 求 ， 内 
核 总 试图 释放 内 存 , 但 是 无 法 成 功 ,这 是 因为 交换 区 已 满 且 所 有 磁盘 高 速 缓存 已 被 压缩 。 
因此 ， 没 有 进程 可 以 继续 执行 ， 也 就 没有 进程 会 释放 它 所 拥有 的 页 框 。 


为 应 对 这 种 突 发 情况 ，PFRA 使 用 所 谓 的 内 存 不 足 (out of memory，OOM) 删除 程序 ， 
该 程序 选 择 系 统 中 的 一 个 进程 ， 强 行 删 除 它 并 释放 页 框 。OOM 删除 程序 就 像 是 外 科大 
夫 ， 为 挽救 一 个 人 的 生命 而 进行 截肢 。 失 去 手脚 当然 是 坏事 ， 但 这 是 不 得 已 而 为 之 。 


当空 闪 内 存 十 分 紧缺 且 PFRA 又 无 法 成 功 回收 任何 页 时 ，__alloc_pages{) 调 用 out_of_ 
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memory () 函数 (参见 第 八 章 中 “管理 区 分 配器 ”一 节 )。 函数 调用 select_bad_process () 
在 现 有 进程 中 选 样 一 个 “牺牲 品 ”， 然 后 调用 oom_ki11_process1{) 删 除 该 进程 。 


当然 ，select_bad_process () 并 不 是 随机 挑选 进程 的 。 被 选 进程 应 满足 下 列 条 件 : 


。 ” 它 必 须 拥 有 大 其 页 框 ， 从 而 可 以 释放 出 大 量 内 存 (为 应 对 “ 子 母 弹 ” 进 程 ， 函数 计 
算 母 进程 所 属 所 有 子 进程 的 内 存 占 用 总 量 ) 。 


。 删除 它 只 损失 少量 工作 成 果 ( 删 除 一 个 工作 了 几 个 小 时 或 几 天 的 批 处 理 进 程 就 不 是 
个 奸 让 二) 

。 ” 它 应 具有 和 较 低 的 静态 优先 级 ， 用 户 通 常 给 不 太 重 要 的 进程 赋予 较 低 的 优先 级 。 

。 ，” 它 不 应 是 有 root 特权 的 进程 ， 特 权 进 程 的 工作 通常 比较 重要 。 


。 ，” 它 不 应 直接 访问 硬件 块 设备 《如 X Window 服务 器 ) ， 因 为 硬件 不 能 处 在 一 个 无 法 
预知 的 状态 。 


。 ，” 它 不 能 是 swapper (进程 0)、init (进程 1) 和 任何 其 他 内 核 线程 。 


select_bad_process() 图 数 扫 描 系 统 中 的 每 一 个 进程 ,根据 以 上 准则 用 经 验 公 式 计 算 
一 个 值 , 这 个 值 表 示 选 择 这 个 进程 的 有 利 程度 , 然后 返回 最 有 利 的 被 选 进程 描述 符 的 地 
址 。out_of_memory () 国 数 再 调用 oom_ki11_process1() 并 发 出 死亡 信号 (通常 是 
SIGKILL ， 参 见 第 十 一 章 )， 读 信号 发 给 该 进程 的 一 个 子 进 程 ， 或 如 果 做 不 到 ， 就 发 给 
该 进程 本 身 。oom_kil11l_process() 同 时 也 删除 与 被 选 进程 共享 内 存 描述 符 的 所 有 克隆 
进程 。 


交换 标记 

在 阅读 本 章 时 ， 你 可 能 认识 到 Linux VM 子 系统 的 代码 太 和 复杂， 尤其 是 PFRA， 以 致 于 
无 法 预 而 任意 负荷 下 它 的 行为 。 而 且 在 有 些 情 形 下 , YM 子 系统 表现 出 了 一 些 病态 行为 。 
交换 失效 (swap thrashing) 现象 就 是 其 中 一 例 : 当 系 统 内 存 不 足 时 ，PFRA 全 力 把 页 
写 人 磁盘 以 释放 内 存 并 从 一 些 进程 窍 取 相 应 的 页 框 ; 而 同时 ， 这 些 进程 要 继续 执行 , 也 
全 力 访问 它们 的 页 。 因 此 内 核 把 PFRA 刚 释放 的 页 框 又 分 配给 这 些 进程 ， 并 从 磁盘 读 回 
其 内 容 。 其 结果 就 是 页 被 无 休止 地 写 入 磁盘 并 且 再 从 磁盘 读 回 。 大 部 分 的 时 间 耗 在 访问 
磁盘 上 ， 从 而 设 有 进程 能 实质 性 地 运行 下 去 。 


为 减少 交换 失效 的 发 生 ， 一 种 由 Jiang 和 Zhang 在 2004 年 提出 的 技术 在 内 核 版 本 2.6.9 
中 得 到 实现 。 即 把 所 谓 的 交换 标记 (swap token) 赋 给 系统 中 的 单个 进程 ， 读 标记 可 以 
使 该 进程 免 子 页 框 回收 ,所 以 进程 可 以 实质 性 地 运行 ,而 且 即 使 内 存 十 分 稀少 , 也 有 和 希 
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交换 标记 的 具体 实现 形式 是 swap_token_mm 内 存 描述 符 指 针 。 当 进程 拥有 交换 标记 时 ， 
swap_token_mm 被 设 为 进程 内 存 描述 符 的 地 址 。 


页 框 回收 算法 的 免除 以 如 此 简洁 的 方式 实现 了 。 我 们 在 “最 近 最 少 使 用 (LRU) 链表 ” 
一 市 看 到 ， 只 当 晶 近 没 有 被 引用 时 ,一 页 才 可 从 活动 链表 移入 非 活 动 链表 。page_ 
referenced() 锐 数 进行 这 一 检查 。 如 果 读 页 属于 一 个 线性 区 ， 读 区 域 所 在 进程 拥有 交 
换 标记 ,那么 该 函数 认可 这 个 交换 标记 并 返回 1 (被 引用 )。 实 际 上 , 交换 标记 在 几 种 情 
况 下 不 予 考虑 : PFRA 代表 一 个 拥有 交换 标记 的 进程 运行 ， 以 及 PFRA 达到 页 框 回收 的 
最 难 优 先 级 (0 级 )。 


grab_swap_token{) 函 数 决定 是 否 将 交换 标记 赋 给 当前 进程 。 对 每 个 主 缺 页 (major 
page fault) 调用 该 函数 ， 这 只 有 两 种 情形 : 


。 当 filemap_nopage() 函 数 发 现 请 求 页 不 在 页 高 速 缓存 中 时 (参见 第 十 六 章 中 “内 
存 映 射 的 请 求 调 页 ”一 节 )。 

*。 当 do_swap_page() 函数 从 交换 区 读 入 一 个 新 页 时 (参见 本 章 后 面 " 换 人 页 "一 节 )。 

grab_swap token{) 国 数 在 分 配 交换 标记 之 前 要 进行 一 些 检查 , 具体 地 说 , 就 是 要 满足 

下 列 条 件 才 可 赋予 交换 标记 ; 

* ”上 次 调用 grab_swap_token(}) 后 ， 至 少 已 过 了 2s 

。 ”在 上 一 次 调用 grab_swap_token() 后 ,当前 拥有 交换 标记 的 进程 没 再 提出 主 缺 页 ， 
或 该 进程 拥有 交换 标记 的 时 间 超 出 swap_token_default_timeocut 个 节拍 。 

当前 进程 最 近 设 有 获得 过 交换 标记 。 

变换 标记 的 持 有 了 时 间 最 好 长 一 些 , 甚至 以 分 钟 为 单位 , 因为 其 目标 就 是 允许 进程 完成 其 

执行 。 在 Linux 2.6.11 中 ,交换 标记 的 持 有 时间 默认 值 很 小 ， 即 一 个 节拍 。 但是， 通过 

编辑 /proc/sys/vm/swap_token_default_timeout 文件 或 发 出 相应 的 sysct11) 系 统 调 用 ， 

系统 管理 员 可 以 修改 swap_token_default_timeout 变量 的 值 。 


当 删 除 一 个 进程 时 ,内 核 检查 该 进程 是 否 拥 有 交换 标记 。 如果 是 则 放 开 它 , 这 由 mmput () 
函数 实现 (参见 第 九 章 的 “内 存 描 述 符 ”一 节 )。 


交换 


交换 (swapping) 用 来 为 非 映射 页 在 磁盘 上 提供 备份 。 从 前 面 的 讨论 我 们 知道 有 三 类 页 
必须 由 交换 子 系统 处 理 : 
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。 ”属于 进程 匿名 线性 区 (例如 ， 用 户 态 堆栈 和 堆 ) 的 页 。 
。 ”属于 进程 私有 内 存 映 射 的 脏 页 。 
。 ”属于 IPC 共享 内 存 区 的 页 (参见 第 十 九 章 的 “IPC 共享 内 存 ” 一 节 )。 


就 像 请 求 调 页 ， 交 换 对 于 程序 必须 是 透明 的 。 换 名 话说， 不 需要 在 代码 中 艇 人 与 交换 有 
关 的 特别 指令 。 为 了 理解 这 是 如 何 实 现 的 ， 回 想 一 下 第 二 章 的 “常规 分 页 ”一 节 ， 我 们 
知道 每 个 页 表 项 包含 一 个 Present 标 志 。 内 核 利用 这 个 标志 来 通知 属于 某 个 进程 地 址 空 
间 的 页 已 被 换 出。 在 这 个 标志 之 外 ，Linux 还 利用 页 表 项 中 的 其 他 位 存放 换 出 页 标识 符 
(swapped-out page identifier) 。 该 标识 符 用 于 编码 换 出 页 在 磁盘 上 的 位 置 。 当 缺 页 异常 
发 生 时 ， 相 应 的 异常 处 理 程序 可 以 检测 到 该 页 不 在 RAM 中 ， 然 后 调用 函数 从 磁盘 换 人 
该 缺 页 。 


交换 子 系统 的 主要 功能 总 结 如 下 : 


。 ”在 磁盘 上 建立 交换 区 (swap area)， 用 于 存放 没有 磁盘 映像 的 页 。 
。 ”管理 交换 区 空间 。 当 需求 发 生 时 ， 分 配 与 释放 页 槽 (page slot)。 


。 ”提供 函数 用 于 从 RAM 中 把 页 换 出 (swap out) 到 交换 区 或 从 交换 区 换 入 (swap in) 
到 RAM 中 。 


。 “利用 页 表 项 ( 现 已 被 换 出 的 换 出 页 页 表 项 ) 中 的 换 出 页 标识 符 跟踪 数据 在 交换 区 中 
的 位 置 。 


总 之 , 交换 是 页 框 回收 的 一 个 最 高 级 特性 。 如 果 我 们 要 确保 进程 的 所 有 页 框 都 能 被 PFRA 
随意 回收 ， 而 不 仅仅 是 回收 有 磁盘 映像 的 页 ， 那 么 就 必须 使 用 交换 。 当 然 ， 你 可 以 用 
swapo 六 命令 关闭 交换 ， 但 此 时 随 着 磁盘 系统 负载 增加 ， 很 快 就 会 发 生 磁 盘 系 统 瘫痪 。 


我 们 还 需 指出 ,交换 可 | 以 用 来 扩展 内 存 地 址 空间 , 使 之 被 用 户 态 进 程 有 效 地 使 用 。 事 实 
上 , 一 个 大 交换 区 可 允许 内 核 运行 几 个 大 需求 量 的 应 用 , 它们 的 内 存 总 需求 量 超过 系统 
中 安装 的 物理 内 存量 。 但 是 ,就 性 能 而 言 ， RAM 的 仿真 还 是 比 不 上 RAM 本 身 。 进 程 对 
当前 换 出 页 的 每 一 次 访问 , 与 对 RAM 中 页 的 访问 比 起 来 , 要 慢 几 个 数量 级 。 简 而 言 之 ， 
如 果 性 能 重要 ， 那 么 交换 仅仅 作为 最 后 一 个 方案 为 了 解决 不 断 增 长 的 计算 需求 增加 
RAM 芯片 的 容量 仍然 是 一 个 最 好 的 方法 。 


交换 区 

从 内 存 中 换 出 的 页 存放 在 交换 区 (swap area) 中 ， 交 换 区 的 实现 可 以 使 用 自己 的 磁盘 
分 区 ,也 可 以 使 用 包含 在 大 型 分 区 中 的 文件 。 可 以 定义 几 种 不 同 的 变换 区 ,最 大 个 数 由 
MAX_SWAPFILES 宏 (通常 被 设置 成 32) 确定 。 


本 


如 果 有 多 个 交换 区 , 就 允许 系统 管理 员 把 大 的 交换 空间 分 布 在 几 个 磁盘 上 , 以 使 硬件 可 
以 并 发 操作 这 些 交换 区 :这样 处 理 还 允许 在 系统 运行 时 不 用 重新 启动 系统 就 可 以 扩大 交 
换 空间 的 大 小 。 


每 个 交换 区 都 由 一 组 页 槽 (page siot) 组 成 ， 也 就 是 说 ， 由 一 组 4096 字 节 大 小 的 块 组 
成 ， 每 块 中 包含 一 个 换 出 的 页 。 交 换 区 的 第 一 个 页 槽 用 来 永久 存放 有 关 交 换 区 的 信息 ， 
其 格式 由 swap._header 联 合体 (由 两 个 结构 info 和 magic 组 成 ) 来 描述 。magic 结 
构 提 供 了 一 个 字符 串 ， 用 来 把 磁盘 某 部 分 明确 地 标记 成 交换 区 ， 它 只 含有 一 个 字段 
magic.magic, 这 个 字段 含有 一 个 10 字 符 的 “magic” 字 符 串 。magic 结构 从 根本 上 人 允 
许 内 核 明 确 地 把 一 个 文件 或 分 区 标记 成 交换 区 ， 这 个 字符 串 的 内 容 就 是 
“SWAPSPACE2” 。 该 字段 通常 位 于 第 一 个 页 槽 的 末尾 。 
info 结构 包括 以 下 字段 : 
bootbits 
交换 算法 不 使 用 该 字段 。 该 字段 对 应 于 交换 区 的 第 一 个 1024 字 市 ， 可 以 存放 分 区 
数据 、 磁 盘 标 签 等 等 。 
VeErSion 
交换 算法 的 版 本 。 
Jast_page 
可 有 效 使 用 的 最 后 一 个 页 槽 。 
nr_badpages 
有 缺陷 的 页 槽 的 个 数 。 
padding[125] 
填充 字 节 。 
baaPpPages [1] 
一 共 637 个 数字 ， 用 来 指定 有 人 缺陷 页 槽 的 位 置 。 


创建 与 激活 交换 区 

只 要 系统 是 打开 的 , 存放 在 交换 区 中 的 数据 就 是 有 意义 的 。 当 系统 被 关闭 时 ,所 有 的 进 
程 都 被 杀 死 ， 因 此 ， 进 程 存放 在 交换 区 中 的 数据 也 被 丢弃 。 基 于 这 个 原因 ， 交换 区 包含 
很 少 的 控制 信息 ,实际 上 包含 交换 区 类 型 和 有 缺陷 页 槽 的 链表 。 这 种 控制 信息 很 容易 存 
放 在 一 个 单独 的 4KB 页 中 。 


通常 ， 系 统管 理 员 在 创建 Linux 系统 中 的 其 他 分 区 时 都 创建 一 个 交换 分 区 ， 然 后 使 用 
mkswap 命令 把 这 个 磁盘 区 设置 成 一 个 新 的 交换 区 。 该 命令 对 刚才 介绍 的 第 一 个 页 槽 中 
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的 字段 进行 初始 化 。 由 于 磁盘 中 可 能 会 有 一 些 坏 块 , 这 个 程序 还 可 以 对 其 他 所 有 的 页 模 
进行 检查 从 而 确定 有 缺陷 页 槽 的 位 置 。 但 是 执行 mkswap 命令 会 把 交换 区 设置 成 非 激 话 
的 状态 。 每 个 交换 区 都 可 以 在 系统 启动 时 在 脚本 文件 中 被 激活 , 也 可 以 在 系统 运行 之 后 
动态 激活 。 


每 个 交换 区 由 一 个 或 多 个 交换 子 区 (swap extent) 组 成 ， 每 个 交换 子 区 由 一 个 swap_ 
extent 描述 符 表示 ， 每 个 子 区 对 应 一 组 页 (更 准确 地 说 ， 是 一 组 页 槽 )， 它 们 在 磁盘 上 
是 物理 相 邻 的 。swap_extent 描述 符 由 下 面 这 几 部 分 组 成 : 交换 区 的 子 区 首页 索引 、 子 
区 的 页 数 和 子 区 的 起 始 磁盘 扇 区 号 。 当 激活 交换 区 自身 的 同时 , 组 成 交换 区 的 有 序 子 区 
链表 也 被 创建 。 存 放 在 磁盘 分 区 中 的 交换 区 只 有 一 个 子 区 ; 但 是 ,存放 在 普通 文件 中 的 
交换 区 则 可 能 有 多 个 子 区 ,这 是 因为 文件 系统 有 可 能 没 把 该 文件 全 部 分 配 在 磁盘 的 一 组 
连续 块 中 。 


如 何在 交换 区 中 分 布 页 

当 换 出 时 ,内核 尽 力 把 换 出 的 页 存放 在 相 邻 的 页 槽 中 , 从 而 减少 在 访问 交换 区 时 磁盘 的 
寻 道 时 间 ， 这 是 高 效 交 换算 法 的 一 个 重要 因素 。 

但 是 ， 如 果 系 统 使 用 了 多 个 交换 区 ， 事 情 就 变 得 更 加 复杂 了 。 快 速 交 换 区 (也 就 是 存放 
在 快速 磁盘 中 的 交换 区 ) 可 以 获得 比较 高 的 优先 级 。 当 查找 一 个 空间 页 槽 时 ,要 从 优先 
级 最 高 的 交换 区 中 开始 搜索 。 如 果 优 先 级 最 高 的 交换 区 不 止 一 个 , 为 了 避免 超 负荷 地 使 
用 其 中 一 个 , 应 该 循环 选择 相同 优先 级 的 交换 区 。 如 果 在 优先 级 最 高 的 交换 区 中 没有 找 
到 空闲 页 槽 ， 就 在 优先 级 次 高 的 交换 区 中 继续 进行 搜索 ， 依 此 类 推 。 


交换 区 描述 符 
每 个 活动 的 交换 区 在 内 存 中 都 有 自己 的 swap_info_struct 描 述 符 , 其 字段 如 表 17-3 所 示 。 


表 17-3: 交换 区 描述 符 的 字段 


类 型 字段 说 明 

unsigned int flags 交换 区 标志 

spinlock_t sdey_ lock 保护 交换 区 的 自 旋 锁 

struct file * swap_file 指针 ， 指 向 存放 交换 区 的 普通 文件 或 设备 文 
件 的 文件 对 象 

struct bdev 存放 交换 区 的 块 设备 描述 符 


block device * 


struct list head extent list 组 成 交换 区 的 子 区 链表 的 头 部 
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表 17-3: 交换 区 描述 符 的 字段 ( 续 ) 


类 型 

int 

struct 
Swap_extLent * 
unsigned int 


unsiqned short * 


unsigned int 
nsigned int 
unsigned int 


unsigned int 


I 
int 
unsigned long 
unsigned long 


1init 


宇 段 


nr extents 


CUrr_swap_extent 


old block size 


swap_map 


lowest_bit 
hiahest_bit 
cluster _ next 


cluster nr 


inuse_pages 


孜 色 其 


Ee 


flags 字段 包括 三 个 重合 的 子 字 有 段 : 


SWP_USED 


第 十 七 


说 明 
组 成 交换 区 的 子 区 数量 
指向 最 近 使 用 的 子 区 描述 符 的 指针 


存放 交换 区 的 磁盘 分 区 自然 块 大 小 
指向 计数 器 数组 的 指针 ， 交 换 区 的 每 个 页 模 
对 应 一 个 数组 元 素 

在 搜索 一 个 空闲 页 槽 时 要 扫描 的 第 一 个 页 模 
在 搜索 一 个 空闲 页 槽 时 要 扫描 的 最 后 一 个 页 模 
在 搜索 一 个 空闲 页 槽 时 要 扫描 的 下 一 个 页 村 
在 从 头 重新 开始 扫描 之 前 空闲 页 槽 的 分 配 
次 数 

交换 区 优先 级 

可 用 页 槽 的 个 数 

交换 区 的 大 小 ， 以 页 为 单位 
交换 区 内 已 用 页 模 数 

指向 下 一 个 交换 区 描述 符 的 指针 


如 果 交 换 区 是 活动 的 ， 该 值 就 是 1， 如果 交 换 区 不 是 活动 的 ， 该 值 就 是 0。 


SWP_WRITEOK 


如 果 可 以 写 入 交换 区 ， 该 值 就 是 1， 如 果 交 换 区 只 读 ， 该 值 就 是 0 (可 以 是 活动 的 


或 不 是 活动 的 )。 


SWP_ACTIVE 


这 个 两 位 的 字段 实际 上 是 SWP_USED 和 SWP_WRITEOK 的 组 合 。 如 果 前 面 两 个 标 
志 置 位 ， 那 么 SWP_ACTIVE 标志 置 位 。 


swap_map 字 段 指 向 一 个 计数 器 数组 , 交换 区 的 每 个 页 模 对 应 一 个 元 素 。 如 果 计 数 强 值 等 
于 0, 那么 这 个 页 槽 就 是 空闲 的 : 如 果 计 数 器 为 正 数 , 那么 换 出 页 就 填充 了 这 个 页 模 。 实 
际 上 , 页 槽 计数 器 的 值 就 表示 共享 换 出 页 的 进程 数 。 如 果 计 数 器 的 值 为 SWAP_MRAP_MRAX 
(等 于 32767)， 那么 存放 在 这 个 页 槽 中 的 页 就 是 “永久 ”的 ,并 且 不 能 从 相应 的 页 槽 中 


加 _ _ _ _ 。， — A 





删除 。 如 果 计 数 器 的 值 是 SWAP_MAP_BAD (等 于 32768)， 那 么 就 认为 这 个 页 模 是 有 缺 
陷 的 ， 也 就 是 不 可 用 的 ( 注 了 )。 


prio 字段 是 一 个 有 符号 的 整数 ， 表 示 交 换 子 系统 依据 这 个 值 考虑 每 个 交换 区 的 次 序 。 


sdev_lock 字 段 是 一 个 自 旋 锁 , 它 防止 SMP 系统 上 对 交换 区 数据 结构 (主要 是 交换 描述 
符 ) 的 并 发 访问 。 


swap_info 数 组 包括 MAX_SWAPFILES 个 交换 区 描述 符 。 只 有 那些 设置 了 SWP_USED 
标志 的 交换 区 才 被 使 用 , 因为 它们 是 活动 区 域 。 图 17-6 说 明了 swap_info 数 组 、 一 个 
交换 区 和 相应 的 计数 器 数组 的 情况 。 

有 缺陷 的 页 覃 
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17-6; 交换 区 数据 结构 


nr_swapfiles 变 量 存放 数组 中 包含 或 已 包含 所 使 用 交换 区 描述 符 的 最 后 一 个 元 素 的 索 
引 。 这 个 变量 有 些 名 不 符 实 ， 它 并 设 有 包含 活动 交换 区 的 个 数 。 


活动 交换 区 描述 符 也 被 插 人 按 交 换 区 优先 级 排序 的 链表 中 。 该 链表 是 通过 交换 区 描述 符 
的 next 字段 实现 的 ，next 字段 存放 的 是 swap_info 数 组 中 下 一 个 描述 符 的 索引 。 访 
字段 作为 索引 的 这 种 用 法 与 我 们 已 经 见 过 的 很 多 名 为 next 字 段 的 用 法 有 所 不 同 , 后 者 通 
常 都 是 指针 。 





注 7: “永久 ”页 槽 防止 swap_map 计数 器 复出 。 没 有 这 些 “ 永 久 ” 页 槽 ， 如 果 有 效 的 页 槽 被 多 
次 引用 , 它们 就 会 变 得 “有 缺陷 ”， 从 而 导致 数据 丢失 ,但 是 , 谁 也 不 真正 期 望 一 个 页 模 
计数 器 达到 32768。 这 仅仅 是 一 条 权宜 之 计 ， 
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swap_list_t 类 型 的 swap_list 变量 包括 | 下 字段 :; 

head 
第 一 个 链表 元 素 在 swap_info 数 组 中 的 下 标 。 

Next 
为 换 出 页 所 选中 的 下 一 个 交换 区 的 描述 符 在 swap_info 数 组 中 的 下 标 。 该 字段 用 于 
在 具有 空闲 页 槽 的 最 大 优先 级 的 交换 区 之 间 实 现 轮 询 算法 。 


swaplock 自 旋 锁 防 止 在 多 处 理 器 系统 中 对 链表 的 并 发 访问 。 


交换 区 摘 述 符 的 max 字 段 存放 以 页 为 单位 交换 区 的 大 小 , 而 pages 字 段 存 放 可 用 页 槽 的 
数目 .这 两 个 数字 之 所 以 不 同 是 因为 pages 字 段 并 没有 考虑 第 一 个 页 槽 和 有 缺陷 的 页 槽 。 


最 后 , nr_swap_pages 变 量 包 含 所 有 活动 交换 区 中 可 用 的 (空间 并 且 无 缺陷 ) 页 槽 数目 ， 
而 total_swap_pages 变量 包含 无 缺陷 页 槽 的 总 数 。 


换 出 页 标识 符 

可 以 很 简单 地 而 又 唯一 地 标识 一 个 换 出 页 ,这 是 通过 在 swap_infc 数 组 中 指定 交换 区 的 索 
引 和 在 交换 区 内 指定 页 槽 的 索引 实现 的 。 由 于 交换 区 的 第 一 个 页 (索引 为 0) 留 给 
swap_headqer 联 合体 , 第 一 个 可 用 页 槽 的 索引 就 为 1。 换 出 页 标识 符 的 格式 如 图 17-7 所 示 。 





图 17-7: 换 出 页 标识 符 


swp_entry (type,offset) 宏 负 责 从 交换 区 索引 type 和 页 槽 索引 offset 中 构造 换 出 
页 标识 符 。swp_type 和 swp_offset 宏 正好 相反 , 它们 分 别 从 换 出 页 标识 符 中 提取 出 交 
换 区 索引 和 页 槽 索引 。 


当 页 被 换 出 时 , 其 标识 符 就 作为 页 的 表 项 插入 页 表 中 ,这样 在 需要 时 就 可 以 再 找到 这 个 
页 。 要 注意 这 种 标识 符 的 最 低位 与 Present 标志 对 应 , 通常 被 清除 来 说 明 该 页 目前 不 在 
RAM 中。 但 是 ， 剩 余 31 位 中 至 少 有 一 位 被 置 位 ， 因 为 没有 页 存放 在 交换 区 0 的 页 槽 0 
中 。 这 样 就 可 以 从 一 个 页 表 项 中 区 分 三 种 不 同 的 情况 : 


人 至 项 
该 页 不 属于 进程 的 地 址 空间 ， 或 相应 的 页 框 还 没有 分 配给 进程 〈 请 求 调 页 ) 。 


回收 页 框 71 


藤 31 个 肯 高 位 不 全 等 于 0， 最 后 一 位 村 于 0 

该 页 现在 被 换 出 。 
最 低位 等 于 7 

该 页 包含 在 RAM 中 。 
注意 ， 交 换 区 的 最 大 值 由 表示 页 槽 的 可 用 位 数 决定 。 在 80x86 体系 结构 上 ， 有 24 位 可 
用 ， 这 就 限制 了 交换 区 的 大 小 为 2” 个 页 槽 〈 也 就 是 64GB )。 
由 于 一 个 页 可 以 属于 几 个 进程 的 地 址 空间 (参见 前 面 的 “ 反 向 映射 ”一 节 )， 所 以 它 可 
能 从 一 个 进程 的 地 址 空间 中 被 换 出 , 但 是 仍 提 保留 在 主 存 中 , 因此 可 能 把 同一 个 页 换 出 


多 次 。 当 然 , 一 个 页 在 物理 上 只 被 换 出 并 存储 一 次 , 但 是 后 来 每 次 试图 换 出 该 页 都 会 增 
加 swap_map 计数 器 的 值 。 


在 试图 换 出 一 个 已 经 换 出 的 页 时 就 会 调用 swap_duplicate() 函 数 。 该 函数 只 是 验证 以 
参数 传递 的 换 出 页 标识 符 是 否 有 效 , 并 增加 相应 的 swap_map 计 数 器 的 值 。 更 确切 地 说 ， 
该 函数 执行 以 下 操作 ; 

1. 使 用 swp_type 和 swp_offset 宏 从 参数 中 提取 出 交换 区 号 type 和 页 槽 索引 offset， 
2. 检查 交换 区 是 否 被 激活 ， 如 果 不 是 ， 则 返回 0 (无 效 的 标识 符 ) 。 


3. ”检查 页 槽 是 否 有 效 且 是 否 不 为 空闲 (swap_map 计 数 跨 大 于 0 且 小 于 SWAP_MAP_BAD) ; 
如 果 不 是 ， 则 返回 0 (无 效 的 标识 符 )。 


4. 否则 ,， 换 出 页 的 标识 符 确定 出 一 个 有 效 页 的 位 置 。 如 果 页 槽 的 swap_map 计 数 器 还 
没有 达到 SWAP_MAP_MAX， 则 增加 它 的 值 。 


5. 返回 1 (有 效 的 标识 符 )。 


激活 和 禁用 交换 区 

一 旦 交换 区 被 初始 化 , 超级 用 户 (或 者 更 确切 地 说 是 任何 具有 CAP_SYS_ADMIN 权 能 的 
用 户 ， 有 关内 容 将 在 第 二 十 章 中 的 “进程 的 信任 状 和 权能 ”一 节 中 介绍 ) 就 可 以 分 别 使 
用 wapon 和 swapoFr 程 序 激 活 和 禁用 交换 区 。 这 两 个 程序 分 别 使 用 了 swapon() 和 
swapoff({) 系统 调 用 ， 我 们 将 简要 介绍 相应 的 服务 例 程 。 


Sys_swapon() 服 务 例 程 
sys_swapon () 服 务 例 程 接收 如 下 参数 : 
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specialfile 
这 个 参数 指向 设备 文件 (或 分 区 ) 的 路 径 名 【在 用 户 态 地 址 空间 ) ， 或 指向 实现 交 
换 区 的 普通 文件 的 路 径 名 。 

swap_flags 
这 个 参数 由 一 个 单独 的 SWAP_FLAG_PREFER 位 加 上 交换 区 优先 级 的 31 位 组 成 
(只 有 在 SWAP_FLAG_PREFER 位 置 位 时 ， 优 先 级 位 才 有 意义 )。 


sys_swapon1()} 国 数 对 创建 交换 区 时 放 人 第 一 个 页 槽 中 的 swap_header 联 合体 字段 进行 
检查 。 其 执行 的 主要 步骤 有 


1， 检查 当前 进程 是 否 具 有 CAP_SYS_ADMIN 权能 。 

2.、 在 交换 区 描述 符 swap_info 数 组 的 前 nr_swapfiles 个 元 素 中 查找 SWP_USED 标 
志 为 0 ( 即 对 应 的 交换 区 不 是 活动 的 ) 的 第 一 个 描述 符 。 如 果 找 到 一 个 不 活动 交换 
区 ， 则 跳 到 第 4 步 。 

3， 新 交换 区 数组 索引 等 于 nr_swapfiles: 它 检查 保留 给 交换 区 索引 的 位 数 是 否 足够 用 
于 编码 新 索引 。 如 果 不 够 ， 则 返回 错误 代码 ， 如 果 足 够 ， 就 将 nr_swapfiles 的 值 加 
ls 

4， ”找到 未 用 交换 区 索引 : 它 初始 化 这 个 描述 符 的 字段 ， 即 把 flags 置 为 SWP_USED， 
把 1cwest_bit 和 highest_bit 置 为 0，。 

5. 如 果 swap_flags 参数 为 新 交换 区 指定 了 优先 级 ， 则 设置 描述 符 的 prio 字 段 。 盏 
则 ,就 把 所 有 活动 交换 区 中 最 低 的 优先 级 减 1 后 峡 给 这 个 宇 段 (这 样 就 假设 最 后 一 
个 被 激活 的 交换 区 在 最 慢 的 块 设备 上 )。 如 果 没 有 其 他 交换 区 是 活动 的 ， 就 把 该 字 
段 设 置 成 一 1。 

6. 从 用 户 态 地 址 空间 复制 由 specialftile 参 数 所 指向 的 字符 串 。 

7. 调用 filp_open() 打 开 由 specialfile 参数 指定 的 文件 【参见 第 十 二 章 的 “open() 系 
统 调用 ”一 节 )。 

8. 把 filp_open() 返 回 的 文件 对 象 地 址 存放 在 交换 区 描述 符 的 swap_file 字段 。 

9， 检查 swap_info 中 其 他 的 活动 交换 区 , 以 确认 读 交 换 区 还 未 被 激活 。 有 具体 就 是 , 检 
查 交 换 区 摘 述 符 的 swap_file->f_mapping 字段 中 存放 的 address_space 对 象 地 
址 。 如 果 区 换 区 已 被 激 话 ， 则 返回 错误 码 。 

10， 如 果 specialfile 参 数 标识 一 个 块 设 备 文 件 ， 则 执行 下 列子 步 又 : 


a 调用 ba_claimt) 把 交换 子 系统 设置 成 块 设备 的 占有 者 (参见 第 十 四 章 的 “ 块 
设备 ”一 节 )。 如 果 块 设备 已 有 一 个 占有 者 ， 则 返回 错误 码 。 


WN 


b. 把 block_device 描 述 符 地 址 存 人 交换 区 描述 符 的 baev 字段 。 


c， 把 设备 的 当前 块 大 小 存放 在 交换 区 描述 符 的 ol9_block_size 字 7 段 , 然后 把 设 
备 的 块 大 小 设 成 4096 字 市 ( 即 页 的 大 小 )。 


. 如 果 specialfile 参 数 标 识 一 个 普通 文件 ， 则 执行 下 列子 步 又 : 


a， 检查 文件 索引 节点 i_flags 字 7 段 中 的 S_SWAPFILE 字 段 。 如 果 读 标志 置 位 , 说 
明文 件 已 被 用 作 交 换 区 ， 返 回 错误 码 。 


b， 把 该 文件 所 在 块 设备 的 描述 符 地 址 存 人 交换 区 描述 符 的 bdaev 字段 。 


， 读 人 存放 在 交换 区 页 槽 0 中 的 swap_headGer 摘 述 符 。 为 达到 这 个 目的 ， 它 调用 


read_cache_page()， 并 传人 参数 : 由 swap_file->f_mapping 指向 的 
adadress_space 对 象 、 页 索引 0、 文 件 readpage 方 法 的 地 址 (存放 在 swap_file 
->f_mapping->a_ops->readpage) 和 指向 文件 对 象 swap_file 的 指针 。 然后 等 待 
直到 页 被 读 人 内 存 。 


， 检查 交换 区 中 第 一 页 的 最 后 10 个 字符 中 的 魔术 字符 串 是 否 等 于 "SWAPSPACE2 ”。 


如 果 不 是 ， 就 返回 一 个 错误 码 。 


根据 存放 在 swap_header 联 合体 的 info.1last_page 字 段 中 的 交换 区 的 大 小 , 初始 
化 交换 区 描述 符 的 lowest_bit 和 highest_bit 字段 。 


:调用 vmalloc() 来 创建 与 新 交换 区 相关 的 计数 器 数组 ,并 把 它 的 地 址 存放 在 交换 扒 


述 符 的 swap_map 字 段 中 。 还 要 根据 swap_header 联 合体 的 info.bad_pages 字段 
中 存放 的 有 缺陷 的 页 槽 链表 把 这 个 数组 的 元 素 初 始 化 成 0 或 SWAP_MAP_BaAD。 


通过 访问 第 一 个 页 槽 中 的 info.last_page 和 infto.nr_badqpages 字 段 计 算 可 用 页 
槽 的 个 数 ， 并 把 它 存 人 交换 区 描述 符 的 pages 字段 。 而 且 把 交换 区 中 的 总 页 数 赋 
给 max 字段 。 


为 新 变换 区 建立 子 区 链表 extent_list( 如 果 交 换 区 建立 在 磁盘 分 区 上 , 则 只 有 一 
个 子 区 ), 并 相应 地 设 定 交 换 区 描述 符 的 nr_extents 和 curr_swap_extent 字段。 


把 交换 区 描述 符 的 fl1ags 字段 设 为 SWP_ACTIVE。 
更 新 nr_good _ pages、nr_swap_pages 和 total_swap_pages 三 个 全 局 变量 ，。 
把 新 交换 区 描述 符 插入 swap_list 变量 所 指向 的 链表 中 。 


.返回 0 (成 功 )。 


Sys_swapoff() 服 务 例 程 


sys_swapoff {) 服 务 例 程 使 specialfile 参 数 所 指定 的 交换 区 无 效 。 sys_swapoff()kE 
sys_swapon() 复 杂 得 多 ， 也 更 加 耗 时 ， 因 为 使 之 无 效 的 这 个 分 区 现在 可 能 仍然 还 包含 


CE 


几 个 进程 的 页 。 因 此 ,强制 该 函数 扫描 交换 区 并 把 所 有 现 有 的 页 都 换 入 。 由 于 每 个 换 入 
操作 都 需要 一 个 新 的 页 框 ， 因 此 如 果 现 在 没有 空闲 页 框 ， 这 个 操作 就 可 能 失败 。 在 这 种 
情况 下 ， 该 函数 就 返回 一 个 错误 码 。 所 有 这 些 操作 都 是 通过 执行 以 下 主要 步骤 实现 的 


1. ”验证 当前 进程 是 否 具 有 CAP_SYS_ADMIN 权能 。 
2， 挡 风 内 核 空间 中 specialfile 所 指向 的 字符 串 。 


3， ”调用 filp_open()， 打开 specialfile 参 数 确定 的 文件 。 与 往常 一 样 ， 该 函数 返 
回 文件 对 象 的 地 址 。 


4， ”扫描 交换 区 描述 符 链 表 swap_list， 比 较 由 filp_open(t) 返 回 的 文件 对 象 地 址 与 
活动 交换 区 描述 符 的 swap_file 字 段 中 的 地 址 , 如 果 不 一 致 , 说 明 传 给 函数 的 是 一 
个 无 效 参数 ， 则 返回 一 个 错误 码 。 

5， 调用 cap_vm_enough_memory () ,检查 是 否 有 足够 的 空闲 页 框 把 交换 区 上 存 帮 的 所 有 
页 换 人 人。 如 果 不 够 ， 交 换 区 就 不 能 禁用 ， 然 后 释放 文件 对 象 ， 返 回 错误 码 。 这 只 是 
个 粗略 的 检查 ， 但 可 使 内 核 免 于 许多 无 用 的 磁盘 操作 。 当 执行 这 项 检查 时 ， 
cap_vm_enough_memory () 要 考虑 由 slab 高 速 缓 存 分 配 且 SLAB_RECLAIM_ACCOUNT 
标志 置 位 的 页 框 (参见 第 八 章 中 “slab 分 配器 与 分 区 页 框 分 配器 的 接口 ”一 节 )， 这 
样 的 页 (被 认为 是 可 回收 的 这 些 页 ) 的 数量 存放 在 slab_reclaim_pages 变量 中 。 

6. 从 swap_list 链表 中 删除 该 交换 区 描述 符 。 

7. 从 nr_swap_pages 和 total_swap_pages 的 值 中 减 去 存放 在 交换 区 描述 符 的 Pages 
字段 中 的 值 。 

8， 把 交换 区 描述 符 flags 字 段 中 的 SWP_WRITEOK 标 志清 0。 这 可 禁止 PFRA 问 交 换 
区 换 出 更 多 的 页 。 

9.， 调用 try_to_unuse() 函 数 ( 见 下 面 ) 强制 把 这 个 交换 区 中 剩余 的 所 有 页 都 移 到 
RAM 中 ,并 相应 地 修改 使 用 这 些 页 的 进程 的 页 表 。 当 执 行 该 函数 时 , 当前 进程 ( 即 
运行 swapoff 的 进程 ) 的 PF_SWAPOFF 标志 置 位 。 该 标志 置 位 只 有 一 个 结果 : 如 页 
框 严重 不 足 ，select_pad_process () 函数 就 会 被 强制 选择 并 删除 该 进程 (参见 本 
章 前 面 “ 内 存 不 足 删除 程序 ”一 节 ) 。 

10. 一 直 等 到 交换 区 所 在 的 块 设备 驱动 器 被 印 载 ( 参 见 第 十 四 章 “ 沿 笑 块 设备 驱动 程序 - 
一 节 )。 这 样 在 交换 区 被 禁用 之 前 , try_to_unuse() 发 出 的 读 请 求 会 被 驱动 器 处 理 。 

11. 如 果 在 分 配 所 有 请 求 的 页 框 时 trvyv_to_unusel) 国 数 失败 , 那么 就 不 能 禁用 这 个 交 
换 区 。 因 此 ，sys_swapoff () 执 行 下 列子 步骤 : 


a， 把 这 个 交换 区 描述 符 重新 插入 swap_list 链表 ， 并 把 它 的 flags 字段 置 为 
SWP_WRITEOK 。 
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b.， 把 交换 区 描述 和 罕 中 pages 字 段 的 值 加 到 nr_swap_pages 和 total_swap_pages 
变量 以 恢复 其 原 值 。 


c. 调用 filp_close() 关 闭 在 第 3 步 中 打开 的 文件 (参见 第 十 二 章 “close() 系 统 
调用 ”一 节 )， 并 返回 错误 码 。 


12. 否则 ， 所 有 已 用 的 页 槽 都 已 经 被 成 功 传送 到 RAM 中 。 因 此 ， 执 行 下 列子 步 又 : 
a， 释放 存 有 swap_map 数组 和 子 区 描述 符 的 内 存 区 域 。 


b. 如 果 交 换 区 存放 在 磁盘 分 区 , 则 把 块 大 小 恢复 到 原 值 , 该 原 值 存放 在 交换 区 描 
述 符 的 oldq_block_size 字段 。 而 且 ， 调用 bd_release() 函 数 ， 使 交换 子 系 
统 不 再 占有 该 块 设备 (参见 sys_swapon() 国 数 第 10a 步 的 描述 ) 。 


c， 如 果 交 换 区 存放 在 普通 文件 中 , 则 把 文件 素 引 节点 的 S_SWaPFILE 标 志清 0。 


d， 调 用 filp_close|(} 两 次 ， 第 一 次 针对 swap_file 文 件 对 象 ， 第 二 次 针对 第 3 
步 中 filp_open() 返 回 的 对 象 。 


e， 返回 0 (成 功 )。 


try_to_unuse() 函 数 


try_to_unuse() 函 数 使 用 一 个 索引 参数 ， 该 参数 标识 竺 清空 的 交换 区 。 该 函数 换 入 页 
并 更 新 已 换 出 页 的 进程 的 所 有 页 表 。 因 此 ， 该 函数 从 init_mm 内 存 描述 符 (用 作 标 记 ) 
开始 ,访问 所 有 内 核 线程 和 进程 的 地 址 空间 。 这 是 一 个 相当 耗 时 的 国 数 ,通常 以 开 中 断 
运行 。 因 此 ， 与 其 他 进程 的 同步 也 是 关键 的 。 


try_to_unuse() 函 数 扫描 交换 区 的 swap_map 数 组 。 当 它 找到 一 个 “在 用 ”页 槽 时 ， 首 
先 换 入 其 中 的 页 , 然后 开始 查找 引用 该 页 的 进程 。 这 两 个 操作 的 顺序 对 避免 竟 争 条 件 是 
至 关 重 要 的 。 当 IO 数据 传送 正在 进行 时 ， 页 被 加 销 ， 因 此 没有 进程 可 以 访问 它 。 一 旦 
WO 数据 传送 完成 , 页 又 被 try_to_unuse{) 加 锁 , 以 使 它 不 会 被 另 一 个 内 核 控制 路 径 再 
次 换 出 。 因 为 每 个 进程 在 开始 进行 换 入 或 换 出 操作 之 前 查找 页 高 速 缓存 , 所 以 这 也 可 以 
避免 竞争 条 件 (参见 后 面 “ 交 换 高 速 缓存 ”一 节 )。 最后， 由 try_to_unuse() 所 考虑 的 
交换 区 被 标记 为 不 可 写 (SWP_WRITEOK 标 志 被 清 0), 因此 , 没有 进程 可 以 对 这 个 交换 
区 的 页 槽 执行 换 出 。 


但 是 , 可 能 强迫 try_to_unuse(}) 对 交换 区 引用 计数 器 的 swap_map 数 组 扫描 几 次 。 这 是 
因为 对 换 出 页 引用 的 线性 区 可 能 在 一 次 扫描 中 宵 失 ， 而 在 随后 又 出 现在 进程 链表 中 。 


例如 ， 回 想 Go_munmap () 国 数 的 描述 〈 在 第 九 章 “释放 线性 地 址 区 间 ” 一 节 ): 只 要 进 
程 释放 一 个 线性 地 址 区 则 , ao_munmap {) 就 从 进程 链表 中 删除 所 有 受 影响 线性 地 址 所 在 
的 线性 区 ， 随后 ， 该 函数 把 只 是 部 分 解除 映射 的 那 部 分 线性 区 重新 插入 进程 链表 中 。 


< _ 


人 一 一 一 一 一 ”一 一 一 一 一 一 一- 





Go_munmap () 还 要 负责 释放 属于 已 释放 线性 地 址 区 间 的 换 出 页 : 但 是 ,如 果 换 出 的 页 属 
于 重新 插 人 进程 链表 的 线性 区 ， 则 最 好 不 要 释放 它们 。 


因此 ，try_to_unuse() 对 引用 给 定 页 槽 的 进程 进行 查找 时 可 能 失败 ， 因 为 相应 的 线性 
区 暂时 没有 包含 在 进程 链表 中 。 为 了 处 理 这 种 情况 , try_to_unuse1() 一 直 对 swap_map 
数组 进行 扫描 ， 直 到 所 有 的 引用 计数 器 都 变 为 空 。 引 用 了 换 出 页 的 “神出鬼没 ”的 线性 
区 最 终 会 重新 出 现在 进程 链表 中 ， 因 此 ，try_to_unuse() 终 将 会 成 功 释放 所 有 页 槽 。 


让 我 们 现在 来 描述 try_to_unuse() 所 执行 的 主要 操作 。 传 递 给 它 的 参数 为 充 换 区 
swap_map 数 组 的 引用 计数 器 ,该 函数 在 这 个 引用 计数 器 上 执行 连续 循环 。 如果 当前 进程 
接收 到 一 个 信号 ， 则 循环 会 中 断 ， 国 数 返 回 错误 码 。 对 于 数组 中 的 每 个 引用 计数 器 ， 
Ery_to_unuse() 执 行 下 列 步 野 ; 


1. 如果 计 数 器 等 于 0 (没有 页 存放 在 这 里 ) 或 者 等 于 SWAP_MAP_BAD， 则 对 下 一 个 
页 槽 继续 处 理 ，。 


2. 否则， 调用 read_swap_cache_async() 国 数 (参见 本 童 后 面 “ 换 人 页 ”一 节 ) 换 
入 该 页 。 这 包括 分 配 一 个 新 页 框 (如 时 必要 )， 用 存放 在 页 模 中 的 数据 填充 新 页 框 
并 把 这 个 页 存放 在 交换 高 速 缓存 。 


3 等待， 直到 用 磁盘 中 的 数据 适当 地 更 新 了 这 个 新 页 ， 然 后 锁 住 它 。 


4. 当 正 在 执行 前 一 步 时 , 进程 有 可 能 被 挂 起 . 因此 , 还 要 检查 这 个 页 槽 的 引用 计数 器 
是 否 变 为 空 , 如 果 是 , 说 明 这 个 交换 页 可 能 被 男 一 个 内 核 控制 路 径 释 放 , 然后 继续 
处 理 下 一 个 页 槽 。 

5. 对 于 以 init_mm 为 头 部 的 双向 链表 (参见 第 九 章 “内 存 描述 符 ” 一 节 ) 中 的 每 个 内 
存 描 述 符 , 调用 unuse_process1() 。 这 个 耗 时 的 国 数 扫描 拥有 内 存 描述 符 的 进程 的 
所 有 页 表 项 , 并 用 这 个 新 页 框 的 物理 地 址 替换 页 表 中 每 个 出 现 的 换 出 页 标识 符 。 为 
了 反映 这 种 移动 ， 还 要 把 swap_map 数组 中 的 页 槽 计数器 减 1 (除非 计数 器 等 于 
SWAP_MAP_MAX)， 并 增加 这 个 页 框 的 引用 计数 器 。 

6. 调用 shmem_unuse{}) 检 查 换 出 的 页 是 否 用 于 IPC 共享 内 存 资源 ， 并 适当 地 处 理 那 
种 情况 {参见 第 十 九 章 “IPC 共享 内 存 ” 一 节 )。 

7. ”检查 页 的 引用 计数 器 。 如 果 它 的 值 等 于 SWAP_MAP_MAX, 则 页 槽 是 “永和 外 的 ”为 
了 释放 它 ， 则 把 引用 计数 器 强制 置 为 ] 。 

8. 交换 高 速 缓存 可 能 也 拥有 该 页 ( 它 对 引用 计数 器 的 值 起 作用 )。 如 果 页 属于 交换 高 
速 缓存 , 就 调用 swap_writepage() 尔 数 把 页 的 内 容 刷 新 到 磁盘 (如 果 页 为 脏 ), 调 
用 aelete_frcom_swap_cache() 从 交换 高 速 缓存 删 去 页 ， 并 把 页 的 引用 计数 减 1。 
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9.， 设置 页 描述 符 的 PG_dirty 标 志 ， 并 打开 页 框 的 锁 ， 递减 它 的 引用 计数 器 (取消 第 
5 步 的 增 量 )。 


10， 检查 当前 进程 的 need_resched 字 段 : 如 果 它 被 设置 , 则 调用 schedule() 放 弃 CPU 。 
禁用 交换 区 是 一 件 元 长 的 工作 , 内核 必须 保证 系统 中 的 其 他 进程 仍然 继续 执行 。 只 
要 这 个 进程 再 次 被 调度 程序 选中 ，try_to_unuse1() 函 数 就 从 这 一 步 继续 执行 。 


11. 继续 到 下 一 个 页 槽 ， 从 第 1 步 开始 。 


try_to_unuse() 继 续 执行 ,直到 swap_map 数 组 中 的 每 个 引用 计数 器 都 为 空 。 回 想 一 下 ， 
即使 这 个 国 数 已 经 开始 检查 下 一 个 页 槽 ,但 是 前 一 个 页 槽 的 的 引用 计数 器 有 可 能 仍然 为 
正 。 事实 上 , 一 个 “神出鬼没 ”的 进程 可 能 还 在 引用 这 个 页 ， 典型 的 原因 是 某 些 线 性 区 
已 经 被 临时 从 第 5 步 所 扫描 的 进程 链表 中 删除 。try_to_unuse() 最 终 会 捕获 到 每 个 引 
用 。 但 是 ,在 此 期 间 ， 页 不 再 位 于 交换 高 速 缓 存 ， 它 的 锁 被 打开 ， 并 且 页 的 一 个 拷贝 仍 
然 包 含 在 要 禁用 的 交换 区 的 页 槽 中 。 


一 般 会 认为 这 种 情形 可 能 导致 数据 丢失 。 例如 , 假定 某 个 “神出鬼没 ”的 进程 访问 页 槽 ， 
并 开始 换 人 其 中 的 页 。 因 为 页 不 再 位 于 交换 高 速 缓存 ， 因 此 ,进程 用 从 磁盘 读 取 的 数据 
填充 一 个 新 的 页 框 。 但 是 , 这 个 页 框 可 能 不 同 于 与 “神出鬼没 ”进程 共享 页 的 那些 进程 
曾经 拥有 的 页 框 。 


当 禁 用 交换 区 时 这 个 问题 不 会 发 生 , 因为 只 有 在 换 出 的 页 属于 私有 匿名 内 存 映射 时 ( 注 
8)， 对 “神出鬼没 “进程 的 干涉 才 会 发 生 。 在 这 种 情况 下 ,使 用 第 九 章 描述 的 “ 写 时 复 
制 ” 机 制 来 处 理 页 框 ， 所 以 ， 把 不 同 的 页 框 分 配给 引用 了 同一 页 的 进程 是 完全 合法 的 。 
但 是 ，try_to_unuse() 函 数 将 页 标记 为 “ 脏 ”( 第 9 步 )。 否 则 ，shrink_list () 函 数 可 
能 随后 从 某 个 进程 的 页 表 中 删除 这 一 页 , 而 并 不 把 它 保 存在 另 一 个 交换 区 中 (参见 后 面 
“ 换 出 页 ”一 节 )。 


分 配 和 释放 页 樟 


正如 我 们 将 在 后 面 看 到 的 那样 , 在 释放 内 存 时 , 内 核 要 在 很 短 的 时 间 内 把 很 多 页 都 交换 
出 去 。 因 此 尽力 把 这 些 页 存放 在 相 邻 的 页 模 中 非常 重要 , 这样 就 减少 了 在 访问 交换 区 时 
磁盘 的 寻 道 时 间 。 


搜索 空闲 页 槽 的 第 一 种 方法 可 以 选择 下 列 两 种 既 简单 而 又 有 些 极端 的 策略 之 一 : 


*。 ”总 是 从 交换 区 的 开头 开始 。 这 种 方法 在 换 出 操作 过 程 中 可 能 会 增加 平均 寻 道 时 间 ， 
因为 空 闪 页 槽 可 能 已 经 被 弄 得 凌乱 不 堪 。 


注 8: 事实 上 ， 页 可 能 属于 IPC 共享 内 存 区 ， 某 十 九 章 将 讨论 这 种 情况 。 


和 


。 ”总 是 从 最 后 一 个 已 分 配 的 页 槽 开始 。 如 果 交 换 区 的 大 部 分 空间 都 是 空 叮 的 (这 是 最 
通常 的 情况 ), 那么 这 种 方法 在 换 人 操作 过 程 中 会 增加 平均 寻 道 时 间 ， 因为 所 占用 
的 为 数 不 多 的 页 槽 可 能 是 零散 存放 的 。 


Linux 采用 了 一 种 混合 的 方法 。 除 非 发 生 以 下 这 些 条 件 之 一 ， 否 则 Linux 总 是 从 最 后 一 
个 已 分 配 的 页 槽 开始 查找 。 


*。 已 经 到 达 交 换 区 的 末尾 。 


* 上 次 从 交换 区 的 开头 重新 分 配 之 后 ， 已 经 分 配 了 SWAPFILE_CLUSTER (通常 是 
256) 个 空间 页 槽 。 


swap_info_struct 描 述 符 的 cluster_nr 字 7 段 存 放 已 分 配 的 空闲 页 槽 数 ,。 当 函数 从 交换 
区 的 开头 重新 分 配 时 该 字段 被 重 置 为 0.cluster_next 字 段 存放 在 下 一 次 分 配 时 要 检查 
的 第 一 个 页 模 的 索引 ( 注 9)。 


为 了 加 速 对 空闲 页 槽 的 搜索 , 内 核 要 保证 每 个 交换 区 描述 符 的 lowest_bit 和 highest_ 
bit 字段 是 最 新 的 。 这 两 个 字段 定 浆 了 第 一 个 和 最 后 一 个 可 能 为 空 的 页 模 ， 换言之 ， 所 
有 低 于 lowest_bit 和 高 于 highest_bic 的 页 槽 都 被 认为 已 经 分 配 过 。 


scan_swap_mapl() 函 数 


scan_swap_map () 函 数 用 来 在 给 定 的 交换 区 中 查找 一 个 空 闪 页 槽 ,。 读 函数 只 作用 于 一 个 
参数 , 该 参 数 指向 交换 区 描述 符 并 返回 一 个 空闲 页 槽 的 索引 。 如 果 交 换 区 不 含有 任何 空 
闲 页 模 ， 就 返回 0。 该 函数 执行 以 下 步 又 ， 


1. 首先 试图 使 用 当前 的 徐 。 如 果 交 换 区 描述 符 的 cluster_nr 字段 是 正 数 ， 就 从 
cluster_next 索引 处 的 元 素 开 始 对 计数 器 的 swap_map 数 组 进行 扫描 ， 查 找 一 个 
空 项 。 如 果 找 到 一 个 空 项 ， 就 减少 cluster_nr 字段 的 值 并 转 到 第 4 步 。 


2. ”如果 执行 到 这 儿 ， 那 么 ， 或 者 cluster_nr 字段 为 空 ， 或 者 从 cluster_next 开始 
搜索 后 没有 在 swap_map 数组 中 找到 空 项 。 现 在 就 应 该 开始 第 二 阶段 的 混合 查找 。 
把 cluster_nr 重 新 初始 化 成 SWAPFILE_CLUSTER， 并 从 lowest_bit 索引 处 开 
始 重新 扫描 这 个 数组 ， 以 便 试图 找到 有 SWAPFILE_CLUSTER 个 空间 页 槽 的 一 个 
组 。 如 果 找 到 这 样 的 一 个 组 ， 就 转 到 第 4 步 。 


3. 不 存在 SNWaPFILE_CLUSTER 个 空闲 页 槽 的 组 。 从 lowest_bit 索引 处 开始 重新 开始 
扫描 这 个 数组 ， 以 便 试 图 找到 一 个 单独 的 空闲 页 槽 。 如 果 设 有 找到 空 项 ， 就 把 


证 9: 正如 你 可 能 已 经 注意 到 的 一 样 , Linux 数据 早 构 的 名 字 并 不 者 是 恰当 的 .在 这 种 情况 下 ， 
内 护 并 不 会 真正 “ 聚 报 《cluster) ”交换 区 的 页 楼 。 
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1cowest_bit 字 段 置 为 数组 的 最 大 索引 ，highest_bit 字 段 置 为 0, 并 返回 0 (交换 
区 已 请 )。 

已 经 找到 空 项 。 把 1 帮 在 空 项 中 ， 减 少 nr_swap_pages 的 值 ， 如 果 需 要 就 修改 
lcwest_bit 和 highest_bit 字 段 , 把 inuse_page 字 段 的 值 加 1 ,并 把 cluster_mext 
字段 设置 成 刚才 分 配 的 页 槽 的 案 引 加 1。 


返回 刚才 分 配 的 页 槽 的 索引 。 


get_swap_page() 函 数 

get_swap_pagel() 国 数 通过 搜索 所 有 库 动 的 交换 区 来 查找 一 个 空 亲 页 槽 . 它 返回 一 个 新 
近 分 配 页 槽 的 换 出 页 标识 符 ， 如 果 所 有 的 交换 区 都 填 满 ， 就 返回 0, 该 函数 要 考虑 活动 
交换 区 的 不 同 优先 级 。 


该 函数 需要 经 过 两 毅 扫 描 , 以 便 在 容易 发 现 页 槽 时 市 约 运行 时 间 。 第 一 遍 是 部 分 的 ， 只 
适用 于 只 有 相同 优先 级 的 交换 区 。 该 函数 以 辊 询 的 方式 在 这 种 交换 区 中 查找 一 个 空闲 页 
槽 。 如 果 设 有 找到 空 亲 页 槽 ， 就 从 交换 区 链表 的 起 始 位 置 开 始 进行 第 二 遍 扫 描 。 在 第 二 
遍 扫 描 中 ， 要 对 所 有 的 交换 区 都 进行 检查 。 更 确切 地 说 ， 该 函数 执行 以 下 步骤 : 


2 


如 果 nr_swap_pages 为 空 或 者 如 果 没 有 活动 的 交换 区 ， 就 返回 0。 


首先 考虑 swap_1ist .next 所 指 同 的 交换 区 (回想 一 下 , 交换 区 链表 是 按照 优先 级 
从 高 到 低 的 顺序 排列 的 )。 


如 果 交 换 区 是 活动 的 ， 就 调用 scan_swap_map () 来 获得 一 个 空闲 页 槽 。 如 果 
scan_swap_map{) 函数 返回 一 个 页 槽 索引 ,该 函数 的 任务 基本 上 就 完成 了 ,但 是 它 
还 要 准备 下 一 次 被 调用 。 因 此 , 如 果 下 一 个 交换 区 的 优先 级 和 这 个 交换 区 的 优先 级 
相同 ( 即 轮 询 使 用 这 些 交 换 区 )， 读 函数 就 把 swap_list .next 修改 成 指向 交换 区 
链表 中 的 下 一 个 交换 区 。 如 果 下 一 个 交换 区 的 优先 级 和 当前 交换 区 的 优先 级 不 同 ， 
该 函数 就 把 swap_list .next 设 置 成 交换 区 链表 中 的 第 一 个 交换 区 (这 样 下 一 次 搜 
索 操作 就 会 从 优先 级 最 高 的 交换 区 开始 )。 该 沙 数 最 终 返 回 刚才 分 配 的 页 槽 所 对 应 
的 换 出 页 标识 符 。 

或 者 变换 区 是 不 可 写 的 , 或 者 殉 换 区 中 没有 空闲 页 槽 .如 果 殉 换 区 链表 中 的 下 一 个 
交换 区 的 优先 级 和 当前 交换 区 的 优先 级 相同 ,就 把 下 一 个 交换 区 设置 成 当前 交换 区 
并 跳 转 到 第 3 步 。 

此 时 , 交换 区 链表 中 的 下 一 个 交换 区 的 优先 级 小 于 前 一 个 交换 区 的 优先 级 。 下 一 步 
操作 取决 于 该 函数 正在 进行 哪 一 遍 扫描。 

a， 如 果 这 是 第 一 遍 (局 部 ) 扫描 , 就 考虑 链表 中 的 第 一 个 交换 区 并 跳 转 到 第 3 步 ， 

这 样 就 开始 第 二 遍 扫 撕 。 


一 


b， 否则 , 就 检查 交换 区 链表 中 是 否 有 下 一 个 元 素 。 如果 有 , 就 考虑 这 个 元 素 并 跳 
转 到 第 3 步 。 


6， 此 时 ， 第 二 遍 对 链表 的 扫 拉 已 经 完成 ， 并 没有 发 现 空 亲 页 槽 ， 返 回 0。 


swap_free() 函 数 

当 换 入 页 时 ， 调 用 swap_free() 国 数 以 对 相应 的 swap_map 计数器 进行 减 1 操作 (参见 
表 17-3)。 当 相应 的 计数 器 达到 0 时 ， 由 于 页 槽 的 标识 符 不 再 包含 在 任何 页 表 项 中 ， 因 
此 页 槽 就 变 成 空间。 但 是 ,我 们 将 在 后 面 “ 交 换 高 速 缓存 ”一 市 看 到 ， 交换 高 速 缓存 也 
记 入 页 槽 拥有 者 的 个 数 。 


该 函数 只 作用 于 一 个 参数 entry，entry 表示 换 出 页 标识 符 。 国 数 执行 以 下 步骤 ， 
1. 从 entry 参数 导出 交换 区 索引 和 页 槽 案 5| offset， 并 获得 交换 区 描述 符 的 地 址 。 
2.， 检查 交换 区 是 否 是 活动 的 。 如 果 不 是 ， 就 立即 返回 。 


3.， 如 果 正 在 释放 的 页 槽 对 应 的 swap_map 计 数 器 小 于 SNWAE_MaAE_MaAX, 就 碱 少 这 个 计 
数 器 的 值 , 回想 一 下 , 值 为 SWAP_MAP_MAX 的 项 都 被 认为 是 永久 的 (不 可 删除 的 )。 


4. 如果 swap_map 计 数 器 恋 成 0, 就 增加 nr_swap_pages 的 值 , 减少 inuse_pages 字 
段 的 值 ， 如 果 需 要 就 修改 这 个 交换 区 描述 和 罕 的 lowest_pbit 和 highest_pit 字段 。 


交换 高 速 缓存 
向 交换 区 来 回 传送 页 会 引发 很 多 竞争 条 件 , 具体 地 说 , 交换 子 系统 必须 仔细 处 理 下 面 的 
情形 : 


多 重 扔 人 

两 个 进程 可 能 同时 要 换 人 同一 个 共享 匿名 页 。 
司 肝 换 人 人 换 上 峡 

一 个 进程 可 能 换 入 正 由 PFRA 换 出 的 页 。 


交换 高 速 缓 存 (swap cache) 的 引信 就 是 为 了 解决 这 类 同步 问题 。 关 键 的 原则 是 ,没有 
检查 交换 高 速 缓存 是 否 已 包括 了 所 涉及 的 页 , 就 不 能 进行 换 入 或 换 出 操作 。 有 了 交换 高 
速 缓存 , 涉及 同一 页 的 并 发 交换 操作 总 是 作用 于 同一 个 页 框 的 。 因 此 ,内核 可 以 安全 地 
依赖 页 描述 符 的 PG_locked 标 志 ， 以 避免 任何 竞争 条 件 。 


车 虑 一 下 共享 同一 换 出 页 的 两 个 进程 这 种 情形 。 当 第 一 个 进程 试图 访问 页 时 , 内 核 开始 
换 入 页 操作 , 第 一 步 就 是 检查 页 框 是 否 在 交换 高 速 缓 存 中 , 我 们 假定 页 框 不 在 交换 高 速 
绥 存 中 ， 那 么 内 核 就 分 配 一 个 新 页 框 并 把 它 插 入 交换 高 速 缓存 ， 然 后 开始 MO 操作 ， 从 
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交换 区 读 人 页 的 数据 ; 同时 ,第 二 个 进程 访问 该 共享 匿名 页 , 与 上 面相 同 ， 内 核 开始 换 
人 操作 , 检查 涉及 的 页 框 是 否 在 交换 高 速 缓存 中 。 现在 页 框 是 在 交换 高 速 缓存, 因此 内 
核 只 是 访问 页 框 描述 符 , 在 FG_locked 标 志清 0 之 前 ( 即 IO 数据 传输 完毕 之 前 ), 让 当 
前 进程 睡 虐 。 


当 换 入 换 出 操作 同时 出 现时 ,交换 高 速 缓存 起 着 至 关 重 要 的 作用 。 在 本 章 前 面 “ 内 存 紧 
缺 回 收 ” 一 节 我 们 描述 过 ，shrink_1ist() 函数 要 开始 换 出 一 个 匿名 页 ， 就 必须 当 
try_to_unmap() 从 进程 (所 有 拥有 该 页 的 进程 ) 的 用 户 态 页 表 中 成 功 删 除了 该 页 后 才 
可 以 。 但 是 当 换 出 的 写 操作 还 在 执行 的 时 候 ， 这 些 进程 中 可 能 有 某 个 进程 要 访问 该 页 ， 
而 产生 换 入 操作 。 


在 写 人 磁盘 前 , 待 换 出 页 由 shrink_list() 存 放 在 交换 高 速 缓存 。 考 虑 页 P 由 两 个 进程 
(A 和 B) 共享 。 最 初 ,两 个 进程 的 页 表 项 都 引用 该 页 框 ， 该 页 有 两 个 拥有 者 ， 如 图 17- 
8 (a) 所 示 。 当 PFRA 选择 回收 页 时 ，shrink_lisc() 把 页 框 插 人 交换 高 速 缓存 。 如 图 
17-8 (b) 所 示 , 现在 页 框 有 三 个 拥有 者 ,而 交换 区 中 的 页 槽 只 被 交换 高 速 缓存 引 用 。 然 
后 PFRA 调用 try_to_unmap{) 从 这 两 个 进程 的 页 表 项 中 删除 对 该 页 框 的 引用 。 一 旦 这 
个 函数 结束 , 该 页 框 就 只 有 交换 高 速 缓存 引用 它 , 而 引用 页 槽 的 有 这 两 个 进程 和 交换 高 
速 缓 存 ， 如 图 17-8 (c) 所 示 。 假 定 : 当 页 中 的 数据 写 人 磁盘 了 时， 进程 B 访问 该 页 ， 即 
它 要 用 该 页 内 部 的 线性 地 址 访问 内 存单 元 。 那么 , 缺 页 异常 处 理 程 序 发 现 页 框 在 交换 高 
速 缓 存 ， 并 把 物理 地 址 放 回 进程 B 的 页 表 项 ， 如 图 17-8 (d) 所 示 。 相 反 地 ， 如 果 换 出 
操作 结束 , 而 没有 并 发 换 人 操作 ，shrink_list1() 国 数 则 从 交换 高 速 缓存 删除 该 页 框 并 
把 它 释放 到 伙伴 系统 ， 如 图 17-8 (e) 所 示 。 


你 可 以 认为 交换 高 速 缓存 是 一 个 临时 区 域 , 该 区 域 存 有 正在 被 换 入 或 换 出 的 匿名 页 描述 
符 。 当 换 入 或 换 出 结束 时 (对 于 共享 匿名 页 , 换 入 换 出 操作 必须 对 共享 该 页 的 所 有 进程 
进行 )， 匿 名 页 描述 符 就 可 以 从 交换 高 速 缓存 删除 ( 注 10)。 


交换 高 速 缓存 的 实现 

交换 高 速 缓存 由 页 高 速 缓 存 数据 结构 和 过 程 实 现 〈 在 第 十 五 章 的 “页 高 速 缓存 ”一 节 中 
有 描述 )。 回 想 一 下 ， 页 高 速 缓存 的 核心 就 是 一 组 基 树 ,借助 基 树 ， 算 法 就 可 以 从 
address_space 对 象 地 址 〈 即 该 页 的 拥有 者 ) 和 偏 移 量 值 推算 出 页 描述 符 的 地 址 。 


在 交换 高 速 缓存 中 页 的 存放 方式 是 卫 页 存放 ， 并 有 下 列 特 征 
注 10: 有 些 情况 下 ， 交 接 高 速 组 存 还 能 钙 提 南 系 统 性 能 : 如 服务 器 后 台 程 序 通 过 创建 子 进 程 提 


殿 服务 请 求 时 , 系统 商 载 很 高 时 , 页 可 能 从 父 进 程 撞 出 ,而 且 再 也 不 会 成 为 父 进 程 的 页 ， 
如 果 不 使 用 交接 高 速 缓存 ， 每 个 被 创 连 的 子 进程 就 需要 从 交接 区 选择 调和 信 的 页 ， 
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。 页 描述 符 的 mapping 字段 为 NULL。 
。 ”页 描述 符 的 PG_swapcache 标志 置 位 。 
。 private 字段 存放 与 该 页 有 关 的 换 出 页 标识 符 。 





17-8: 交换 高 速 缓存 的 作用 


此 外 , 当 页 被 放 入 交换 高 速 缓存 时 , 则 页 描述 符 的 count 字段 和 页 槽 引用 计数 器 的 值 都 
增加 ， 因 为 交换 高 速 缓存 既 要 使 用 页 框 ， 也 要 使 用 页 槽 。 


最 后 , 交换 高 速 缓存 中 的 所 有 页 只 使 用 一 个 swapper_space 地 址 空间 , 因此 只 有 一 个 基 
树 (由 swapper_space.page_tree 指 阿 ) 对 交换 高 速 缓存 中 的 页 进行 寻 址 。swapper_ 
space 地 址 空间 的 nrpages 字段 存放 交换 高 速 缓 存 中 的 页 数 。 
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交换 高 速 缓存 的 辅助 函数 

内 核 使 用 几 个 函数 来 处 理 交换 高 速 缓存 ,它们 主要 是 基于 第 十 五 章 的 “页 高 速 缓存 ”-- 
节 中 所 讨论 的 那些 函数 。 稍 后 我 们 将 说 明 这 些 相 对 低层 的 函数 是 如 何 被 高 层 函 数 调 用 来 
按 需 换 入 和 换 出 页 的 。 


处 理 交 换 高 速 缓存 的 函数 主要 有 


lookup_swap_cache{() 
通过 传递 来 的 参数 ( 换 出 页 标识 符 ) 在 交换 高 速 缓存 中 查找 页 并 返回 页 描述 符 的 地 
址 。 如 果 读 页 不 在 交换 高 速 缓存 中 , 就 返回 0。 该 函数 调用 radix_tree_lookup() 
国 数 , 把 指向 swapper_space.page_tree 的 指针 (用 于 交换 高 速 缓 存 中 页 的 基 树 ) 
和 换 出 页 标识 符 作为 参数 传递 ， 以 查找 所 需要 的 页 。 

add to_ swap_cache!() 
把 页 插入 交换 高 速 缓存 中 。 它 本 质 上 调用 swap_Guplicate() 检 查 作为 参数 传递 来 
的 页 槽 是 否 有 效 , 并 增加 页 权 引 用 计数 器 ， 然后 调用 radix_tree_insert () 把 页 插 
人 高 速 缓存 ， 最 后 递增 页 引用 计数 器 并 将 PG_swapcache 和 PG_locked 标 志 置 位 。 

__add to swap_cache{) 
与 add_to_swap_cache() 类 似 , 但 是 ， 在 把 页 框 插 入 交换 高 速 缓 存 前 ， 这 个 函数 
不 调用 swap_dauplicatel)。 

delete from swap_cache') 
调用 radix_tree_gdelete() 从 交换 高 速 缓存 中 删除 页 , 递减 swap_map 中 相应 的 使 
用 计数 器 ， 递 减 页 引用 计数 器 。 

free page_and_ swap_cache |() 
如 果 除 了 当前 进程 外 , 和 没有 其 它 用 户 态 进程 正在 引用 相应 的 页 槽 , 则 从 交换 高 速 组 
存 中 删除 该 页 ， 并 递减 页 使 用 计数 器 。 

tree_pages_and_swap_cachel) 
与 free_page_and_swap_cache () 相 似 ， 但 它 是 对 一 组 页 操作 。 

free swap_and cache!{) 
释放 一 个 交换 表 项 , 并 检查 该 表 项 引用 的 页 是 否 在 交换 高 速 缓存 。 如果 没有 用 户 态 
进程 (除了 当前 进程 之 外 ) 引用 该 页 ， 或 者 超过 50% 的 交换 表 项 在 用 ， 则 从 交换 
高 速 缓存 中 释放 该 页 。 


换 出 页 
我 们 从 本 章 前 面 “ 内 存 紧缺 回收 ”一 节 可 看 到 ，PFRA 是 如 何 确定 一 个 给 定 的 匿名 页 是 
否 该 被 换 出 。 在 这 一 节 ， 我 们 描述 内 核 如 何 执行 换 出 操作 。 


2 十 七 


向 交换 高 速 缓存 插入 页 框 


换 出 操作 的 第 一 步 就 是 准备 交换 高 速 缓 存 。 如 果 shrink_list() 函 数 确认 某 页 为 匿名 页 
(Pageanon() 函数 返回 1) 而 且 交 换 高 速 缓存 中 没有 相应 的 页 框 ( 页 描述 符 的 PG_swapcache 
标志 清 0)， 内 棱 就 调用 add_to_swap1() 国 数 。 


aqd_to_swap() 国 数 在 交换 区 中 分 配 一 个 新 页 槽 , 并 把 一 个 页 框 (其 页 描述 符 地 址 作为 
参数 传递 ) 插入 交换 高 速 缓存 。 国 数 执行 如 下 主要 步骤 : 


1. 调用 get_swap_page1() 国 数 分 配 一 个 新 页 槽 (参见 本 章 前 面 “ 分 配 和 释放 页 槽 ”一 
节 )。 如 果 失 败 (例如 没有 发 现 空间 页 槽 )， 则 返回 0。 

2. ”调用 __ada to_page_cache(), 传 给 它 页 槽 索引 . 页 描述 符 地 址 和 一 些 分 配 标志 。 

3. ”将 页 描述 符 中 的 PG_uptodate 和 PG_dirty 标 志 置 位 ,从 而 强制 shrink_list() 
国 数 把 页 写 人 磁盘 ( 见 下 一 节 )。 

4， 返回 1 (成 功 )。 


更 新 页 表 项 

一 日 add_to_swap() 结 束 ，shrink_list() 就 调用 try_to_unmap()， 它 确定 引用 匿名 
页 的 每 个 用 户 态 页 表 项 地 址 , 然后 将 换 出 页 标识 符 写 人 其 中 (参见 本 章 前 面 “ 匿 名 页 的 
反 向 映射 ”一 节 )。 


将 页 与 入 交换 区 

为 完成 换 出 操作 需 执 行 的 下 一 个 步骤 是 将 页 的 数据 写 人 交换 区 。 这 一 I/O 传输 是 由 
shrink_1list{) 函数 向 活 的 ， 它 检查 页 框 的 PG_dirty 标志 是 否 置 位 ， 然 后 执行 
pagecut () 国 数 (参见 本 章 前 面 的 图 17-5)。 


在 本 章 前 面 的 “内 存 紧 缺 回收 ”一 节 我 们 描述 过 , pageout () 国 数 建立 一 个 writeback_ 
control 描 述 和 罕 , 且 调 用 页 address_space 对 象 的 writepage 方 法 ,而 swapper_state 
对 象 的 writepage 方 法 是 由 swap_writepage() 函 数 实现 的 。 


swap_writepagel) 国 数 所 执行 的 主要 步骤 如 下 ; 


1. 检查 是 否 至 少 有 一 个 用 户 态 进程 引用 该 页 。 如 果 设 有 ， 则 从 交换 高 速 缓存 删除 该 
页 ， 并 返回 0。 这 一 检查 之 所 以 必须 做 ， 是 因为 一 个 进程 可 能 会 与 PFRA 发 生 竞争 
并 在 shrink_list() 检 查 完 后 释放 一 页 。 

2.， 调用 get_swap_bio() 分 配 并 初始 化 一 个 bio 描 述 符 (参见 第 十 四 章 “bio 结构 ”一 
节 ) 。 国 数 从 换 出 页 标识 符 算出 交换 区 描述 符 地 址 。 然 后 它 搜索 交换 子 区 链表 ， 以 
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找到 页 槽 的 初始 磁盘 扁 区 。bio 描 述 符 将 包含 一 个 单 页 数据 请 求 (页 模 ), 其 完成 方 
法 设 为 end_swap_bio writef) 国 数 。 


3. ” 置 位 页 描述 符 的 PG_writeback 标 志和 交换 高 速 缓 存 基 树 的 writeback 标 记 (参见 
第 十 五 章 的 “ 基 树 的 标记 ”一 节 )。 此 外 函数 还 清 OPG_locked 标志 。 


4. ”调用 submit_bio()， 传 给 它 WRITE 命令 和 bio 描述 符 地 址 。 
5. 返回 0。 
一 旦 IO 数据 传输 结束 ， 就 执行 end_swap_bio_write() 函 数 。 实 际 上 ， 这 个 函数 唤醒 


正 等 待 页 PG_writeback 标 志清 0 的 所 有 进程 , 清除 PG_writeback 标 志和 基 树 中 的 相关 
标记 ， 并 释放 用 于 I/O 传输 的 bio 描述 符 。 


从 交换 高 速 缓存 中 删除 页 框 


换 出 操作 的 最 后 一 步 还 是 由 shrink_list() 执 行 。 如 果 它 验证 在 IO 数据 传输 时 没有 进 
程 试图 访问 该 页 框 , 它 实 际 就 调用 aelete_from_swap_cache() 从 交换 高 速 缓存 中 删除 
该 页 框 。 因 为 交换 高 速 缓存 是 该 页 的 唯一 拥有 者 ， 读 页 框 被 释 帮 到 伙伴 系统 。 


换 入 页 

当 进 程 试 图 对 一 个 已 被 换 出 到 磁盘 的 页 进行 寻 址 时 , 必然 会 发 生 页 的 换 人 。 在 以 下 条 件 

发 生 时 , 缺 页 异常 处 理 程序 就 会 触发 一 个 换 和 人 操作 (参见 第 九 章 中 的 “处 理 地 址 空间 内 

的 错误 地 址 ”一 节 ): 

e。 “引起 异常 的 地 址 所 在 的 页 是 一 个 有 效 的 页 , 也 就 是 说 , 它 属于 当前 进程 的 一 个 线性 
区 。 

。 ”页 不 在 内 存 中 ， 也 就 是 说 ， 页 表 项 中 的 Present 标志 被 清除。 

。 ”与 页 有 关 的 页 表 项 不 为 空 , 但 是 Dirty 位 请 0, 这 意味 着 页 表 项 包含 一 个 换 出 页 标 
识 符 (参见 第 九 章 的 “请 求 调 页 ”一 节 )。 


如 果 上 面 的 所 有 和 条件 满足 ， 则 handle_pte_fault () 调 用 相对 简易 的 do_swap_page1) 
函数 换 人 所 需 页 。 


do_swap_page() 函 数 
do_swap_pagef() 国 数 作 用 于 如 下 参数 ; 
i 


引起 缺 页 异常 的 进程 的 内 存 描述 符 地 址 


WO 


vma 
aqqress 所 在 的 线性 区 的 线性 区 描述 符 地址 
address 
引起 异常 的 线性 地 址 
page_table 
映射 aaqress 的 页 表 项 的 地 址 
Pmd 
映射 address 的 页 中 间 目 录 的 地 址 
orig_pte 
映射 address 的 页 表 项 的 内 容 
WIrite access 


一 个 标志 ， 表 示 试 图 执行 的 访问 是 读 操作 还 是 写 操作 


与 其 他 函数 相反 ，daoc_swap_page1l) 从 不 返回 0。 如 果 页 已 经 在 交换 高 速 缓存 中 就 返回 1 
(次 错误 ), 如 果 页 已 经 从 交换 区 读 入 就 返回 2 ( 主 错误 ), 如 果 在 进行 换 入 时 发 生 错误 就 
返回 一 1。 该 国 数 本 质 上 执行 下 列 步骤 : 


1. 从 orig_pte 获得 换 出 页 标识 罕 。 

2. ”调用 pte_unmap() 释 放任 何 页 表 的 临时 内 核 映射 ,该 页 表 由 handle_mm_fault 1() 
函数 建立 (参见 第 九 章 的 “处 理 地 址 空间 内 的 错误 地 址 ”一 节 )。 正 如 第 八 章 “高 
端 内 存 页 框 的 内 核 映 射 ” 一 节 所 述 ， 访 问 高 端 内 存 页 表 需 要 进行 内 核 映射 。 

3. ”释放 内 存 描述 符 的 page_table_lock 自 旋 锁 ( 它 是 由 调用 者 函数 handle_pte_fault () 
获取 的 )。 


4. ”调用 lookup_swap_cache() 检 查 交 换 高 速 缓存 是 否 已 经 含有 换 出 页 标识 符 对 应 的 
页 ， 如 果 页 已 经 在 交换 高 速 缓 存 中 ， 就 跳 到 第 6 步 。 


5 调用 swapin_readahead |() 函 数 从 交换 区 读 取 至 多 有 2n 个 页 的 一 组 页 ,其 中 包括 
所 请 求 的 页 。 值 n 存放 在 page_cluster 变量 中 ,通常 等 于 3 ( 注 11)。 其 中 的 每 
个 页 是 通过 调用 read_swap_cache_async() 函 数 读 作 的 (参见 下 面 )。 


6. 再 一 次 调用 read_swap_cache_async() 换 入 由 引起 缺 页 异常 的 进程 所 访问 的 那 一 页 。 
这 一 步 可 能 看 起 来 有 点 多 余 ， 但 其 实 不 然 。swapin_readahead|) 函 数 可 能 在 读 取 请 
求 的 页 时 失败 一 一 例如 ， 因 为 page_cluster 被 置 为 0, 或 者 该 函数 试图 读 取 一 组 含 


注 11: 系统 管理 员 通 过 写 /proc/sys/ym/page-cluster 文件 可 以 调整 这 个 值 。 通过 把 page- 
Cluster 置 为 0 可 以 禁止 提前 撞 入 页 。 
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14. 
15. 


19. 


有 空 闪 或 有 缺陷 页 槽 (SWAP_MAP_BAD) 的 页 。 另 -一 方面 , 如 果 swapin_readahead () 
成 功 ， 这 次 对 read_swap_cache_async|) 的 调用 就 很 快 结束 ， 因 为 它 在 交换 高 速 组 
存 找 到 了 页 。 


尽管 如 此 , 如 果 请 求 的 页 还 是 没有 被 加 到 交换 高 速 缓 存 , 那么 , 另 一 个 内 核 控制 路 
径 可 能 已 经 代表 这 个 进程 的 一 个 子 进程 换 入 了 所 请 求 的 页 ,这 种 情况 的 检查 可 以 通 
过 临时 获取 page_table_lock 自 旋 锁 ,并 把 page_table 所 指向 的 表 项 与 orig_pte 
进行 比较 来 实现 。 如果 二 者 有 差异 , 则 说 明 这 一 页 已 经 被 某 个 其 他 的 内 核 控 制 路 径 
换 入 ， 因 此 ， 函 数 返回 1 (次 错误 )， 否则 ， 返 回 一 1 (失败 )。 


函数 执行 到 此 , 我 们 知道 页 已 经 在 高 速 缓存 中 。 如 果 页 已 被 换 入 ( 主 错 误 )}， 函数 就 
调用 grab_swap_token () 试 图 获得 一 个 交换 标记 (参见 本 章 前 面 “ 交 换 标记 ”一 节 )。 


调用 mark_page_accessed() [参见 前 面 “最 近 最 少 使 用 (LRU) 链表 ”一 节 ] 并 
对 页 加 锁 。 


获取 page_table_lock 自 旋 鲍 。 


.检查 另 一 个 内 核 控 制 路 径 是 否 代表 这 个 进程 的 一 个 子 进程 换 入 了 所 请 求 的 页 。 如 果 


是 ， 就 释放 page_table_lock 自 族 锁 ， 打开 页 上 的 希 ， 并 返回 1 (次 错误 )。 
调用 swap_free() 减 少 entry 对 应 的 页 槽 的 引用 计数 器 。 


， 检查 交换 高 速 缓存 是 否 至 少 占 满 90% (nr_swap_pages 小 于 total_swap_pages 的 


一 半 )。 如 果 是 ， 则 检查 页 是 否 仅 被 引起 异常 的 进程 (或 其 一 个 子 进程 ) 拥有 ， 如 
果 是 这 样 ， 则 从 交换 高 速 缓存 中 删 去 这 一 页 。 

增加 进程 的 内 存 描述 符 的 rss 字段 。 

更 新 页 表 项 以 便 进程 能 找到 这 一 页 .这 一 操作 的 实现 是 通过 把 所 请 求 页 的 物理 地 址 
和 在 线性 区 的 vm_page_prot 字段 所 找到 的 保护 位 写 人 page_table 所 指向 的 页 表 
项 中 来 达到 的 。 此外, 如 果 引 起 缺 页 的 访问 是 一 个 写 访问 , 且 造 成 缺 页 的 进程 是 页 
的 唯一 拥有 者 ， 那么 ， 函 数 还 要 设置 Dirty 和 Read/Write 标 志 以 防止 无 用 的 写 时 
复制 错误 。 

打开 页 上 的 锁 。 


. 调用 page_adqd_anon_rmap() 把 匿名 页 插入 面向 对 象 的 反 向 映射 数据 结构 (参见 本 


童 前 面 “匿名 页 的 反 向 映射 ”一 市 )。 


如 果 write_access 参数 等 于 1， 则 函数 调用 Go_wp_page() 复 制 一 份 页 柜 【参见 
第 九 章 的 “ 写 时 复制 ”一 节 )。 


释放 mm->page_table_lock 自 旋 锁 ， 并 返回 1 (次 错误 ) 或 2 ( 主 错误 )。 
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read_swap_cache_async() 函数 
只 要 内 核 必须 换 入 一 个 页 , 就 调用 read_swap_cache_async() 函 数 , 它 接收 的 参数 为 ， 


entry 
换 出 页 标识 符 
vma 
指向 该 页 所 在 线性 区 的 指针 
addr 
页 的 线性 地 址 


我 们 知道 , 在 访问 交换 分 区 之 前 , 该 函数 必须 检查 交换 高 速 缓存 是 否 已 经 包含 了 所 要 的 
页 框 。 因 此 ， 该 函数 本 质 上 执行 下 列 操作 


1. 调用 radix_tree_lookup(), 搜索 swapper_space 对 象 的 基 树 ， 寻 找 由 换 出 页 标 
识 符 entry 给 出 位 置 的 页 框 。 如 果 找 到 该 页 ， 递 增 它 的 引用 计数 器 ， 返 回 它 的 描 
述 符 地 址 。 

2. ”页 不 在 交换 高 速 缓存 。 调 用 alloc_page() 分 配 一 个 新 的 页 框 。 如 果 设 有 空闲 的 页 
框 可 用 ， 则 返回 0 〈 表 示 系 统 设 有 是 够 的 内 存 )。 


3. ”调用 ada_to_swap_cache() 把 新 页 框 的 页 描述 符 插入 交换 高 速 缓 存 。 正 如 前 面 
“交换 高 速 缓 存 的 辅助 函数 ”一 节 提 到 的 那样 ， 这 个 函数 也 对 页 加 锁 。 

4， 如果 adad_to_swap_cache () 在 交换 高 速 缓存 找到 页 的 一 个 副本 ， 则 前 一 步 可 能 失 
败 。 例 如 ,进程 可 能 在 第 2 步 阻塞 ,因此 允许 另 一 个 进程 在 同一 个 页 槽 上 开始 换 人 
操作 。 在 这 种 情况 下 ， 读 函数 释放 在 第 2 步 分 配 的 页 框 ， 并 从 第 1 步 重 新 开始 。 

5， ”调用 lru_cache_add_active() 把 页 插入 LRU 的 活动 链表 [参见 本 章 前 面 “ 最 近 
最 少 使 用 (LRU) 链表 ”一 节 ]。 

6. 新 页 框 的 页 描述 符 现 已 在 交换 高 速 缓存 。 调 用 swap_readpage() 从 交换 区 读 人 访 
页 数据 。 这 个 函数 与 前 面 “ 换 出 页 ”一 节 所 描述 的 swap_writepage() 国 数 很 相似 ， 
它 将 页 描述 符 的 PG_uptodate 标 志清 0， 调用 get_swap_bio() 为 1/0 传输 分 配 与 
初始 化 一 个 bio 描述 符 ， 再 调用 submit_biol) 向 块 设 备 子 系统 层 发 出 1/0 请 求 。 

7. 返回 页 描述 符 的 地 址 。 
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Ext2 和 Ext3 文件 系统 





在 本 章 ,， 我 们 通过 当 与 一 个 特定 的 文件 系统 交互 时 内 核 所 关注 的 细节 来 结束 对 IO 和 文 
件 系统 进行 的 广泛 讨论 。 因 为 第 二 扩展 文件 系统 (Ext2) 是 Linux 所 固有 的 , 事实 上 已 
在 每 个 Linux 系统 中 得 以 使 用 , 因此 我 们 自然 要 对 Ext2 进行 讨论 。 此 外 ，Ext2 在 对 现代 
文件 系统 的 高 性 能 支持 方面 也 显示 出 很 多 良好 的 实践 性 。 固 然 ，Linux 支持 的 其 他 文件 
系统 有 很 多 有 趣 的 特点 ， 但 因 篇 幅 限制 ， 我 们 并 不 对 此 一 一 讨论 。 


在 “Ext2 的 一 般 特 征 ” 一 节 中 引入 Ext2 后 ， 我们 会 像 在 其 他 章节 中 一 样 ， 接 着 描述 所 
需 的 数据 结构 。 因 为 我 们 着 眼 于 磁盘 上 存放 数据 的 特定 方式 , 因此 必须 考虑 同一 数据 结 
构 的 两 种 形式 :“Ext2 磁盘 数据 结构 ”一 市 说 明 把 Ext2 存放 在 磁盘 上 的 数据 结构 ， 而 
“Ext2 的 内 存 数据 结构 ”一 节 说 明 如 何 把 磁盘 上 的 数据 结构 复制 到 内 存 中 。 

然后 ， 我 们 讨论 Ext2 文件 系统 上 所 执行 的 操作 。 在 “创建 Ext2 文件 系统 ”一 节 ， 我 们 
讨论 如 何在 磁盘 分 区 创建 Ext2。 接 下 来 的 一 节 描 述 使 用 磁盘 时 内 核 所 执行 的 操作 。 其 中 
的 大 部 分 操作 是 为 索引 节点 和 数据 块 分 配 磁盘 空间 ， 这 些 操作 相对 比较 低级 。 


在 最 后 一 节 ， 我 们 将 对 Ext3 文件 系统 给 予 简短 描述 ，Ext3 是 Ext2 文件 系统 的 发 展 。 


Ext2 的 一 般 特 征 


类 Unix 操作 系统 使 用 多 种 文件 系统 。 尽 管 所 有 这 些 文件 系统 都 有 少数 POSIX API (如 
state()) 所 需 的 共同 的 属性 子 集 ， 但 每 种 文件 系统 的 实现 方式 是 不 同 的 。 
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Linux 的 第 一 个 版 本 是 基于 MINIX 文件 系统 的 。 当 Linux 成熟 时 ,引入 了 扩展 文件 系统 
(Extended Filesystem，Ext ES)， 它 包含 了 几 个 重要 的 扩展 但 提供 的 性 能 不 令 人 满意 。 
在 1994 年 ?| 入 了 第 二 扩展 文件 系统 \Ext2):， 它 除 了 包含 几 个 新 的 特点 外 ， 还 相当 商 效 
和 稳定 ，Ext2 及 它 的 下 代 文 件 系 统 Ext3 已 成 为 广泛 使 用 的 Linux 文件 系统 。 


下 列 特点 有 助 于 Ext2 的 效率 : 


当 创建 Ext2 文件 系统 时 ， 系 统管 理 员 可 以 根据 预期 的 文件 平均 长 度 来 选择 最 佳 块 
大 小 (从 1024B ~4096B) 。 例 如 ， 当 文件 的 平均 长 度 小 于 几 干 字 节 时 ， 块 的 大 小 
为 1024B 是 最 佳 的 , 因为 这 会 产生 较 少 的 内 部 碎片 一 一 也 就 是 文件 长 度 与 存放 它 
的 磁盘 分 区 有 较 少 的 不 匹配 (参见 第 八 章 中 的 “内 存 区 管理 ”一 市 , 在 那里 讨论 了 
动态 内 存 的 内 部 碎片 )。 另 一 方面 , 大 的 块 对 于 大 于 几 千 字 节 的 文件 通常 比较 合适 ， 
因为 这 样 的 磁盘 传送 较 少 ， 因 而 减轻 了 系统 的 开销 。 


当 创 建 Ext2 文件 系统 时 ， 系 统管 理 员 可 以 根据 在 给 定 大 小 的 分 区 上 预计 存放 的 文 
件数 来 选择 给 该 分 区 分 配 多 少 个 索引 节点 。 这 可 以 有 效 地 利用 磁盘 的 空间 。 


文件 系统 把 磁盘 块 分 为 组 ,每 组 包含 存放 在 相 邻 磁道 上 的 数据 块 和 索引 节点 。 正 是 
这 种 结构 ,使 得 可 以 用 较 少 的 磁盘 平均 寻 道 时 间 对 存放 在 一 个 单独 块 组 中 的 文件 进 
行 访问 。 

在 磁盘 数据 块 被 实际 使 用 之 前 , 文件 系统 就 把 这 些 块 预 分 配给 普通 文件 。 因 此 , 当 
文件 的 大 小 增加 时 ， 因 为 物理 上 相 邻 的 几 个 块 已 被 保留 ， 这 就 减少 了 文件 的 碎片 。 
支持 快速 符号 链接 (参见 第 一 章 中 的 “ 硬 链接 和 软 链接 ”一 节 ) 。 如 果 符 号 链接 表 
示 一 个 短路 径 名 (小 于 或 等 于 60 个 字符 ), 就 把 它 存放 在 索引 节点 中 而 不 用 通过 读 
一 个 数据 块 进行 转换 。 


此 外 ，Ext2 还 包含 了 一 些 使 它 既 健壮 又 灵活 的 特点 : 


文件 更 新 策略 的 谨慎 实现 将 系统 崩溃 的 影响 减 到 最 少 。 例如 , 当 给 文件 创建 一 个 新 
的 硬 链接 时 , 首先 增加 磁盘 索引 市 点 中 的 硬 链接 计数 器 , 然后 把 这 个 新 的 名 字 加 到 
合适 的 目录 中 ,在 这 种 方式 下 , 如 果 在 更 新 索引 节点 后 而 改变 这 个 目录 之 前 出 现 一 
个 硬件 故障 ,， 这样 即 使 索引 节点 的 计数 器 产生 错误 , 但 目录 是 一 致 的 。 因 此 , 尽管 
删除 文件 时 无 法 自动 收回 文件 的 数据 块 , 但 并 不 导致 灾难 性 的 后 果 。 如果 这 种 操作 
的 顺序 相反 (更 新 索引 布点 前 改变 目录 ), 同样 的 硬件 故障 将 会 导致 危险 的 不 一 致 ; 
删除 原始 的 硬 链接 就 会 从 磁盘 删除 它 的 数据 块 ,但 新 的 目录 项 将 指向 一 个 不 存在 的 
索引 点。 如 果 那 个 索引 刷 点 号 以 后 又 被 另外 的 文件 所 使 用 , 那么 向 这 个 旧 目 录 项 
的 写 操作 将 毁坏 这 个 新 的 文件 。 


在 启动 时 支持 对 文件 系统 的 状态 进行 自动 的 一 致 性 检查 。 这 种 检查 是 由 外 部 程序 
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e2fsck 完 成 的 , 这 个 外 部 程序 不 仅 可 以 在 系统 崩 澳 之 后 被 沿 活 , 也 可 以 在 一 个 预定 
义 的 文件 系统 安装 数 〈 每 次 安装 操作 之 后 对 计数 器 加 1) 之 后 被 激活 ， 或 者 在 自从 
最 近 检 查 以 来 所 花 的 预定 义 时 间 之 后 被 激活 。 


。 ”支持 不 可 变 (immutable) 的 文件 (不 能 修改 .删除 和 更 名 ) 和 仅 追 加 (append-only) 
的 文件 (只 能 把 数据 追加 在 文件 尾 )。 


. 既 与 Unix System V Release 4 (SVR4) 相 兼 容 ， 也 与 新 文件 的 用 户 组 ID 的 BSD 
语义 相 兼容 。 在 SVR4 中 ， 新 文件 采用 创建 它 的 进程 的 用 户 组 ID， 而 在 BSD 中 ， 
新 文件 继承 包含 它 的 目录 的 用 户 组 ID。Ext2 包含 一 个 安装 选项 ,由 你 指定 采用 哪 
种 语义 。 


即使 Ext2 文件 系统 是 如 此 成 熟 、 稳 定 的 程序 , 也 还 要 考虑 引入 另外 几 个 特性 。 一些 特性 
已 被 实现 并 以 外 部 补丁 的 形式 来 使 用 。 另 外 一 些 还 仅仅 处 于 计划 阶段 ,但 在 一 些 情况 下 ， 
已 经 在 Ext2 的 索引 节点 中 为 这 些 特性 引入 新 的 字段 。 最 重要 的 一 些 特点 如 下 : 


芯片 (block fraementation) 
系统 管理 员 对 磁盘 的 访问 通常 选择 较 大 的 块 ， 因 为 计算 机 应 用 程序 常常 处 理 大 文 
件 。 因此 , 在 大 块 上 存放 小 文件 就 会 浪费 很 多 磁盘 空间 。 这 个 问题 可 以 通过 把 几 个 
文件 存放 在 同一 块 的 不 同 片上 来 解决 。 


诅 明 地 处理 压缩 和 加 徐 文 件 
这 些 新 的 选项 (创建 一 个 文件 时 必须 指定 /将 允许 用 户 透 明 地 在 磁盘 上 存放 压缩 和 
(或 ) 加 密 的 文件 版 本 。 


逻 帮 而 除 
一 个 undelete 选项 将 允许 用 户 在 必要 时 很 容易 恢复 以 前 已 删除 的 文件 内 容 。 


日 志 
日 志 避 免 文 件 系统 在 被 突然 卸载 (例如 , 作为 系统 崩溃 的 后 果 ) 时 对 其 自动 进行 的 
耗 时 检查 。 


实际 上 ， 这 些 特 点 没有 一 个 正式 地 包含 在 Ext2 文件 系统 中 。 有 人 可 能 说 Ext2 是 这 种 成 
功 的 牺牲 品 ， 直到 几 年 前 ， 它 仍然 是 大 多 数 Linux 发 布 公司 采用 的 首选 文件 系统 ， 每 天 
有 成 千 上 万 的 用 户 在 使 用 它 , 这 些 用 户 会 对 用 其 他 文件 系统 来 代替 Ext2 的 任何 企图 产生 
质疑 。 


Ext2 中 缺少 的 最 突出 的 功能 就 是 日 志 ， 日 志 是 高 可 用 服务 器 必需 的 功能 。 为 了 平顺 过 
渡 ， 日 志 没 有 引入 到 Ext2 文件 系统 ,但 是 ， 我们 在 后 面 “Ext3 文件 系统 ”一 节 会 讨论 ， 
完全 与 Ext2 兼 容 的 一 种 新 文件 系统 已 经 创建 , 这 种 文件 系统 提供 了 日 志 。 不 真正 需要 日 
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志 的 用 户 可 以 继续 使 用 良好 而 老式 的 Ext2 文 件 系统 ,而 其 他 用 户 可 能 采用 这 种 新 的 文件 
系统 。 现 在 发 行 的 大 部 分 系统 采用 Ext3 作为 标准 的 文件 系统 。 


Ext2 磁盘 数据 结构 


任何 Ext2 分 区 中 的 第 一 个 块 从 不 受 Ext2 文 件 系 统 的 管理 ， 因 为 这 一 块 是 为 分 区 的 引导 
局 区 所 保留 的 (参见 附录 一 )。Ext2 分 区 的 其 余部 分 分 成 块 组 (block group)， 每 个 块 
组 的 分 布 图 如 图 18-1 所 示 。 正 如 你 从 图 中 所 看 到 的 ， 一 些 数 据 结构 正好 可 以 放 在 一 块 
中 ， 而 另 一 些 可 能 需要 更 多 的 块 。 在 Ext2 文件 系统 中 的 所 有 块 组 大 小 相同 并 被 顺序 存 
放 ， 因 此 ， 内 核 可 以 从 块 组 的 整数 索引 很 容易 地 得 到 磁盘 中 一 个 块 组 的 位 置 。 





18-1: Ext2 分 区 和 Ext2 块 组 的 分 布 图 


由 于 内 核 尽 可 能 地 把 属于 一 个 文件 的 数据 块 存 放 在 同一 块 组 中 ,所 以 块 组 减少 了 文件 的 
碎片 。 块 组 中 的 每 个 块 包含 下 列 信息 之 一 : 

。 ”文件 系统 的 超级 块 的 一 个 撕 贝 

。 ”一 组 块 组 描述 符 的 找 贝 

。 ”一 个 数据 块 位 图 

。 一 个 索引 布点 位 图 

。 一 个 索引 市 表 

。 ”属于 文件 的 一 大 块 数据 ， 即 数据 块 


如 采 一 个 块 中 不 包含 任何 有 意义 的 信息 ， 就 说 这 个 块 是 空闲 的 。 


从 图 18-1 中 可 以 看 出 ,超级 块 与 组 描述 符 被 复制 到 每 个 块 组 中 。 只 有 块 组 0 中 所 包含 的 
超级 块 和 组 描述 符 才 由 内 核 使 用 ， 而 其 余 的 超级 块 和 组 描述 符 保持 不 变 ， 事实 上 ， 内 核 
其 至 不 考虑 它们 。 当 e2fsck 程 序 对 Ext2 文 件 系统 的 状态 执行 一 致 性 检查 时 ,就 引用 存放 
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在 块 组 0 中 的 超级 块 和 组 描述 符 ， 然 后 把 它们 拷贝 到 其 他 所 有 的 块 组 中 。 如 果 出 现 数据 
损坏 ,并 且 块 组 0 中 的 主 超级 块 和 主 描述 符 变 为 无 效 , 那么 , 系统 管理 员 就 可 以 命令 e2fsck 
引用 存放 在 某 个 块 组 (除了 第 一 个 块 组 ) 中 的 超级 块 和 组 描述 符 的 旧 拷 贝 。 通常 情况 下 ， 
这 些 多 余 的 拷贝 所 存放 的 信息 足以 让 e2fsck 把 Ext2 分 区 带 回 到 一 个 一 致 的 状态 。 


有 多 少 块 组 呢 ? 这 取决 于 分 区 的 大 小 和 块 的 大 小 。 其 主要 限制 在 于 块 位 图 , 因为 块 位 图 
必须 存放 在 一 个 单独 的 块 中 。 块 位 图 用 来 标识 一 个 组 中 块 的 占用 和 空闲 状况 。 所 以 , 每 
组 中 至 多 可 以 有 8 x 5b 个 块 ，b 是 以 字 布 为 单位 的 块 大 小 。 因 此 ， 块 组 的 总 数 大 约 是 
5/ (8 x b)， 这 里 s 是 分 区 所 包含 的 总 块 数 。 


举例 说 明 , 让 我 们 考虑 一 下 32GB 的 Ext2 分 区 , 块 的 大 小 为 4KB。 在 这 种 情况 下 ,每 个 
4KB 的 块 位 图 描述 32K 个 数据 块 ， 即 128MB 。 因 此 ， 最 多 需要 256 个 块 组 。 显 然 ， 块 
的 大 小 越 小 ， 块 组 数 越 大 。 


超级 块 


Ext2 在 磁盘 上 的 超级 块 存放 在 一 个 ext2_super_block 结 构 中 , 它 的 字段 在 表 18-1 中 列 
出 ( 注 1)。__u8、__ul16 及 __u32 数 据 类 型 分 别 表 示 长 度 为 8、16 及 32 位 的 无 符号 
数 , 而 __s8、__s16 及 __s32 数 据 类 型 表示 长 度 为 8、16 及 32 位 的 有 符号 数 。 为 清晰 
地 表示 磁盘 上 字 或 双 字 中 字 节 的 存放 顺序 , 内 核 又 使 用 了 __ 1e16、 1le32、 _be16 和 
__be32 数据 类 型 ， 前 两 种 类 型 分 别 表示 字 或 双 字 的 “小 尾 (little-endian)” 排 序 方式 
( 低 阶 字 节 在 高 位 地 址 ), 而 后 两 种 类 型 分 别 表示 字 或 双 字 的 “大 尾 (big-endian)” 排 序 
方式 (高 阶 字 节 在 高 位 地 址 )。 


表 18-1， Ext2 超级 块 的 字段 





类 型 字段 说 明 

__le32 s_inodes_count 索引 节点 的 总 数 

__1le32 s_blocks_ count 以 块 为 单位 的 文件 系统 的 大 小 
__le32 Ss_r_ blocks_count 保留 的 块 数 

__1le32 s_free blocks_count 罕 闲 块 计数 器 

__ 1e32 s_free inodes count 空闲 索引 节点 计数 器 

__1le32 s_first_data_block 第 一 个 使 用 的 块 号 (总 为 1) 
__le32 Ss_log_block_ size | 块 的 大 小 

注 1: 为 了 确保 Ext2 和 Ext3 文 件 系统 之 间 的 于 容 性 ,ext2_super_block 数 据 结构 包 含 了 一 些 


Ext3 特有 的 字段 ， 它 们 并 未 在 表 18-1 中 列 出 。 
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表 18-1: Ext2 超级 块 的 字段 ( 续 ) 


类 型 

__le32 
__le32 
__le32 
__ 1e32 
__le32 
_le32 
_lel6 


_lelé6 
__lelié6 
__lelé6 
__lelé6 
__lelé6 
__le32 
__le32 


__le32 
__le32 
__lelé6 
__lelé 
__le32 
_lelé 
_lelé6 
__le32 


__le32 


__le32 

__u8 [16] 
char [16] 
char [64] 


_je32 


Cm 


_ulé6 
__u32 [204] 


字段 


S_1og_fragd_S12Ze 
s_blocks_ per_group 
Ss_frags_per. group 
Ss_inodes per_group 
s_mtime 

Ss_wtime 
Ss_mt_count 

S_max_ mmt_count 
S_magic 

s_state 

Ss_errors 
Ss_minor_rev_level 
s_lastcheck 
s_checkinterval 
Ss_Creator_os 
S_rev_level 
s_def_resuid 

Ss def resgid 
Ss_first_ino 
S_inode size 
Ss_block group_nr 
Ss_feature compat 
Ss_feature_incompat 
Ss_feature_ro_ compat 
s_uulid 

S_volume name 
Ss_last_ mounted 
s_algorithm usage bitmap 
Ss_prealloc_ blocks 
Ss prealloc dir_ blocks 
Ss_paddingl 


S_reserved 
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说 明 

片 的 大 小 

每 组 中 的 块 数 

每 组 中 的 片 数 

每 组 中 的 索引 节点 数 

最 后 一 次 安装 操作 的 时 间 
最 后 一 次 写 操 作 的 时 间 
安装 操作 计数 器 

检查 之 前 安装 操作 的 次 数 
魔术 签名 

状态 标志 

当 检 测 到 错误 时 的 行 
次 版 本 号 

最 后 一 次 检查 的 时 间 
两 次 检查 之 间 的 时 间 间 隔 
创建 文件 系统 的 操作 系统 
版 本 号 
保留 块 的 缺 省 UID 
保留 块 的 缺 省 用 户 组 ID 
第 一 个 非 保留 的 索引 节点 号 
磁盘 上 索引 节点 结构 的 大 小 
这 个 超级 块 的 块 组 号 
具有 兼容 特点 的 位 图 
具有 非 兼 容 特点 的 位 图 
只 读 兼 容 特点 的 位 图 
128 位 文件 系统 标识 符 
卷 名 

最 后 一 个 安装 点 的 路 径 名 
用 于 压缩 

预 分 配 的 块 数 

为 目录 预 分 配 的 块 数 

按 字 对 章 


用 null 填充 1024 字 节 
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s_inodes_count 字段 存放 索引 节点 的 个 数 ， 而 s_blocks_count 字段 存放 Ext2 文件 系 
统 的 块 的 个 数 。 


s_l1og_block_size 字 段 以 2 的 守 次 方 表示 块 的 大 小 ， 用 1024 字 节 作为 单位 。 因 此 ，0 
表示 1024 字 节 的 块 ，1 表示 2048 字 节 的 块 ， 如 此 等 等 。 目前 s_log_frag_size 字 有 段 与 
s_log_block_size 字 7 段 相等 ， 因 为 块 片 还 没有 实现 。 


s_blocks_per_group、s_frags_per_group 与 sS_inodes_per_group 字 有 段 分 别 存 放 每 
个 块 组 中 的 块 数 、 片 数 及 索引 布点 数 。 


一 些 磁盘 块 保留 给 超级 用 户 (或 由 s_def_resuid 和 s_def_resgid 字 7 段 挑选 给 某 一 其 
他 用 户 或 用 户 组 ) 。 即 使 当 普 通用 户 设 有 空闲 块 可 用 时 ， 系 统管 理 员 也 可 以 用 这 些 块 继 
续 使 用 Ext2 文件 系统 。 


s_mt_count, s_max_ mt count、s_lastcheck 及 s_checkinterval 字 上段 使 系统 启动 
时 上 自动 地 检查 Ext2 文 件 系统 。 在 预定 义 的 安装 操作 数 完 成 之 后 , 或 自 最 后 一 次 一 致 性 检 
查 以 来 预定 义 的 时 间 已 经 用 完 , 这 些 字 段 就 导致 e2fsck 执 行 (两 种 检查 可 以 一 起 进行 )。 
如 果 Ext2 文件 系统 还 没有 被 全 部 印 载 (例如 系统 朋 闹 以 后 ), 或 内 核 在 其 中 发 现 一 些 错 
误 , 则 一 致 性 检查 在 局 动 时 要 强制 进行 。 如 果 Ext2 文件 系统 被 安装 或 未 被 全 部 卸载 ， 则 
s_state 字 段 存 放 的 值 为 0 如果 被 正常 印 载 , 则 这 个 字段 的 值 为 1 如 果 包 含 错 误 ， 则 
值 为 2。 


组 描述 符 和 位 图 


每 个 块 组 都 有 自己 的 组 描述 符 , 它 是 一 个 ext2_group_desc 结 构 , 它 的 字段 在 表 18-2 中 
列 出 。 


表 18-2: Ext2 组 描述 符 的 字段 


类 型 字段 说 明 

__1e32 bg_block_bitmap 块 位 图 的 块 号 

__1e32 bg_inode_bitmap 索引 节点 位 图 的 块 号 
__le32 bg_inode_ table 第 一 个 索引 节点 表 块 的 块 号 
__ lel6 bg_free_blocks_count 组 中 空闲 块 的 个 数 

__lel6 bg_free_inodes_count 组 中 空闲 索引 节点 的 个 数 
__lel6 bg_used_ dirs_count 组 中 目录 的 个 数 

__lel6 bg_pad 按 字 对 齐 


__le32 [3] bg_reserved 用 null 填充 24 个 字 节 
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当 分 配 新 索引 节点 和 数据 块 时 ,会 用 到 bg_free_blocks_count .bg_free_inoqes_count 
和 bg_useqd_dirs_count 字 段 , 这 些 字段 确定 在 最 合适 的 块 中 给 每 个 数据 结构 进行 分 配 。 
位 图 是 位 的 序列 , 其 中 值 0 表 示 对 应 的 索引 节点 块 或 数据 块 是 空闲 的 ,1 表示 占用 。 因 为 
每 个 位 图 必须 存放 在 一 个 单独 的 块 中 ,又 因为 块 的 大 小 可 以 是 1024、2048 或 4096 字 布 ， 
因此 ， 一 个 单独 的 位 图 描述 8192、16384 或 32768 个 块 的 状态 。 


索引 节点 表 


索引 市 点 表 由 一 连 串 连续 的 块 组 成 , 其 中 每 一 块 包含 索引 节点 的 一 个 预定 义 号 。 索引 市 
扩 表 第 一 个 块 的 块 号 存放 在 组 描述 符 的 bg_inode_table 字 段 中 。. 


所 有 索引 节点 的 大 小 相同 , 即 128 字 节 。 一 个 1024 字 节 的 块 可 以 包含 8 个 索引 节点 ,一 
个 4096 字 节 的 块 可 以 包含 32 个 索引 节点 。 为 了 计算 出 索引 节点 表 占 用 了 多 少 块 ， 用 一 
个 组 中 的 索引 节点 总 数 (存放 在 超级 块 的 s_inodes_per_group 字 段 中 ) 除 以 每 块 中 的 
索引 节点 数 。 


每 个 Ext2 索引 节点 为 ext2_innode 结构 ， 其 字段 如 表 18-3 所 示 。 


表 18-3: Ext2 磁盘 索引 节点 的 字段 


类 型 字段 说 明 

__lel6 i_mode 文件 类 型 和 访问 权限 
__lel6é i_uig 拥有 者 标识 各 

1e32 i_size 以 字 布 为 单位 的 文件 长 度 
__1e32 i_atime 最 后 一 次 访问 文件 的 时 间 
__le32 i_ctime 索引 市 点 最 后 改变 的 时 间 
__1e32 i_mt ime 文件 内 容 最 后 改变 的 时 间 
__1e32 i_atime 文件 删除 的 时 间 

__lel6 i_gid 用 户 组 标识 符 

__lel6 i_jJinks_count 硬 链 接 计数 器 

__le32 i_blocks 文件 的 数据 块 数 

__ le32 i_flags 文件 标志 

union osd1 特定 的 操作 系统 信息 

__ le32 [EXT2_N_BLOCKS] i_block 指向 数据 块 的 指针 

__ Te32 i_generation 文件 版 本 ( 当 网 络 文件 系统 访问 文件 时 使 用 ) 


__le32 i file acl 文件 访问 控制 列表 
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表 18-3: Ext2 磁盘 索引 节点 的 字段 ( 续 ) 


类 型 字段 说 明 

-16832 下 GE 目录 访问 控制 列表 
__1l1e32 i_faddr 片 的 地 址 

union osd2 特定 的 操作 系统 信息 





与 POSIX 规范 相关 的 很 多 字段 类 似 于 VFS 索引 节点 对 象 的 相应 字段 ， 这 已 在 第 十 二 章 
的 “索引 节点 对 象 ”一 市 中 讨论 过 。 其 余 的 字段 与 Ext2 的 特殊 实现 相关 , 主要 处 理 块 的 
分 配 。 


特别 地 ，i_size 字 段 存 放 以 字 节 为 单位 的 文件 的 有 效 长 度 , 而 i_blocks 字 段 存 放 已 分 
配给 文件 的 数据 块 数 (以 512 字 市 为 单位 )。 


i_size 和 i_blocks 的 值 没 有 必然 的 联系 。 因 为 一 个 文件 总 是 存放 在 整数 块 中 , 一 个 非 
空 文件 至 少 接受 一 个 数据 块 (因为 还 没 实现 片 ) 且 i_size 可 能 小 于 512 x i_blocks。 
男 一 方面 ， 我 们 将 在 本 章 后 面 的 “文件 的 洞 ”一 市 中 看 到 ,一 个 文件 可 能 包含 有 洞 。 在 
那 种 情况 下 ，i_size 可 能 大 于 512 x i_pblocks。 


i_blocks 字 段 是 具有 EXT2_N_BLOCKS (通常 是 15) 个 指针 元 素 的 一 个 数组 ， 每 个 元 
素 指 向 分 配给 文件 的 数据 块 (参见 本 章 后 面 的 “数据 块 寻 址 ”一 节 )。 


留 给 i_size 字 段 的 32 位 把 文件 的 大 小 限制 到 4GB。 事 实 上 ，i_size 字 有 段 的 最 高 位 没 
有 使 用 ， 因此, 文件 的 最 大 长 度 限 制 为 2GB。 然 而,，Ext2 文 件 系 统 包含 一 种 “ 脏 技 巧 ”， 
允许 像 AMD 的 Opteron 和 IBM 的 PowerPC G5 这样 的 64 位 体系 结构 使 用 大 型 文件 。 从 
本 质 上 说 ,索引 节点 的 1 air_ac1l 字 段 (普通 文件 没有 使 用 ) 表示 i_size 字 段 的 32 位 
扩展 。 因 此 , 文件 的 大 小 作为 64 位 整数 存放 在 索引 节点 中 。Ext2 文件 系统 的 64 位 版 本 
与 32 位 版 本 在 某 种 程度 上 兼容 ,因为 在 64 位 体系 结构 上 创建 的 Ext2 文件 系统 可 以 安装 
在 32 位 体系 结构 上 ， 反 之 亦 然 。 但 是 ,在 32 位 体系 结构 上 不 能 访问 大 型 文件 ， 除 非 以 
O_LARGEFILE 标志 打开 文件 (参见 第 十 二 章 “open() 系 统 调用 ”一 节 )。 


回忆 一 下 , VFS 模 型 要 求 每 个 文件 有 不 同 的 索引 市 点 号 。 在 Ext2 中 , 没有 必要 在 磁盘 上 
存放 文件 的 索引 节点 号 与 相应 块 号 之 间 的 转换 ,因为 后 者 的 值 可 以 从 块 组 号 和 它 在 索引 
节点 表 中 的 相对 位 置 而 得 出 。 例如 , 假设 每 个 块 组 包含 4096 个 索引 节点 , 我 们 想 知道 索 
引 节 点 13021 在 磁盘 上 的 地 址 。 在 这 种 情况 下 , 这 个 索引 节点 属于 第 三 个 块 组 ， 它 的 磁 
盘 地 址 存放 在 相应 索引 市 点 表 的 第 733 个 表 项 中 。 正如 你 看 到 的 , 索引 布点 号 是 Ext2 例 
程 用 来 快速 搜索 磁盘 上 合适 的 索引 市 上 后 描述 符 的 一 个 关键 字 。 
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索引 市 点 的 增强 属性 

Ext2 索 引 节点 的 格式 对 于 文件 系统 设计 者 就 好 像 一 件 紧 身 衣 , 索引 节点 的 长 度 必须 是 2 
的 宕 ,以 免 造成 存放 索引 节点 表 的 块 内 碎片 。 实 际 上 , 一 个 Ext2 索 引 节点 的 128 个 字符 
空间 中 充满 了 信息 ,只 有 少许 空间 可 以 增加 新 的 字段 。 另 一 方面 , 将 索引 节点 的 长 度 增 
加 至 256 不 仅 相当 浪费 , 而 且 使 用 不 同 索引 节点 长 度 的 Ext2 文 件 系 统 之 间 还 会 造成 兼容 
上 器 题 


引入 增强 属性 (extended attribute) 就 是 要 克服 上 面 的 问题 。 这 些 属性 存放 在 索引 节点 
之 外 的 磁盘 块 中 。 索 3 引 节 点 的 i_file_acl 字 段 指 向 一 个 存放 增强 属性 的 块 。 具 用 同样 
增强 属性 的 不 同 索 引 节 点 可 以 共享 同一 个 块 。 


每 个 增强 属性 有 一 个 名 称 和 值 。 两 者 都 编码 为 变 长 字符 数组 ， 并 由 ext2_xattr_entry 
摘 述 符 来 确定 。 图 18-2 表示 Ext2 中 增强 属性 块 的 结构 。 每 个 属性 分 成 两 部 分 : 在 块 首 
部 的 是 exc2_xatcr_encry 搞 述 符 与 属性 名 ， 而 属性 值 则 在 块 尾 部 。 块 前 面 的 表 项 按照 
属性 名 称 排 序 ， 而 值 的 位 置 是 固定 的 ， 因 为 它们 是 由 属性 的 分 配 次 序 决 定 的 。 


| 


| bt Name #2 Descr #3: Name #3 © Descr.#1, Name#1 Value #3 | Value | Value #1 | 


we Value offs |e_name_ len FF-------J e value size 





18-2; 含 增 强 属 性 的 块 的 结构 


有 很 多 系统 调用 用 来 设置 、 取 得 、 0 一 个 文件 的 增强 属性 。 系 统 调 用 


setxattr()、lsetxattr() 和 fsetxattr() 设 置 文件 的 增强 属性 ， 它 们 在 符号 链接 的 
处 理 与 文件 限定 的 方式 le 0 上 根本 不 同 。 类 似 地 ， 系 
统 确 用 getxattr()、lgetxattr() 和 fgetxattr{) 返 回 增强 属性 的 值 。 杀 统 调 用 


listxattr{()、 llistxattr() 和 fliistxattr(} 则 列 出 一 个 文件 的 所 有 增强 属性 。 最 后 ， 
系统 调用 removexattr{)、lremovexattr({) 和 fremovexattr() 从 文件 删除 一 个 增强 


访问 控制 列表 
很 早 以 前 访问 控制 列表 就 被 建议 用 来 改善 Unix 文 件 系 统 的 保护 机 制 . 不 是 将 文件 的 用 户 
分 成 三 类 : 拥有 者 、 组 和 其 他 ， 访 问 控 制 列 表 (access control list, ACL) 可 以 与 每 个 
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文件 关联 。 有 了 这 种 列表 ， 用 户 可 以 为 他 的 文件 限定 可 以 访问 的 用 户 《 或 用 户 组 ) 名 称 
以 及 相应 的 权限 。 


Linux 2.6 通过 索引 节点 的 增强 属性 完整 实现 ACL。 实 际 上 ,增强 属性 主要 就 是 为 了 支 
持 ACL 才 引入 的 。 因 此 ， 能 让 你 处 理 文件 ACL 的 库 函 数 chacl()、setfacl() 和 
getfacl() 就 是 通过 上 一 节 中 介绍 的 setxattr() 和 getxattr() 系 统 调 用 实现 的 。 


不 幸 的 是 ， 在 POSIX 1003.1 系列 标准 内 ， 定 义 安全 增强 属性 的 工作 组 所 完成 的 成 果 从 
没有 正式 成 为 新 的 POSIX 标准 。 因 此 现在 , 不 同 的 类 Unix 文件 系统 都 支持 ACL, 但 不 
同 的 实现 之 间 有 一 些微 小 的 差别 。 


各 种 文件 类 型 如 何 使 用 磁盘 块 


Ext2 所 认可 的 文件 类 型 (普通 文件 、 管 道 文件 等 ) 以 不 同 的 方式 使 用 数据 块 。 有 些 文件 
不 存放 数据 ， 因 此 根本 就 不 需要 数据 块 。 本 市 讨论 每 种 文件 类 型 的 存储 要 求 ， 如 表 
18-4 所 示 。 


表 18-4:， Ext2 文件 类 型 


文件 类 型 说 明 

0 未 知 

1 普通 文件 
2 目录 

3 字符 设备 
4 块 设备 
5 命名 管道 
6 套 接 字 
7 符号 链接 
普通 文件 


普通 文件 是 最 常见 的 情况 , 本 章 主 要 关注 它 。 但 普通 文件 只 有 在 开始 有 数据 时 才 需 要 数 
据 块 。 普 通 文件 在 刚 创 建 时 是 空 的 ， 并 不 需要 数据 块 ， 也 可 以 用 truncate() 或 open () 
系统 调用 清空 它 。 这 两 种 情况 是 相同 的 , 例如 , 当 你 发 出 一 个 包含 字符 串 >filename 的 
shell 命令 时 ，shell 创建 一 个 空 文件 或 截断 一 个 现 有 文件 。 
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目录 


Ext2 以 一 种 特殊 的 文件 实现 了 目录 , 这 种 文件 的 数据 块 把 文件 名 和 相应 的 索引 市 点 号 存 
放 在 一 起 。 特 别 说 明 的 是 ， 这 样 的 数据 块 包 含 了 类 型 为 ext2_dir_entry_2 的 结构 。 表 
18-5 列 出 了 这 个 结构 的 字段 。 因为 该 结构 最 后 一 个 name 字 段 是 最 大 为 EXT2_NAME_LEN 
(通常 是 255) 个 字符 的 变 长 数组 ， 因 此 这 个 结构 的 长 度 是 可 变 的 。 此 外 ， 因 为 效率 的 原 
因 ， 目 录 项 的 长 度 总 是 4 的 倍数 ， 并 在 必要 时 用 null 字符 (\0) 填充 文件 名 的 末尾 。 
name_len 字段 存放 实际 的 文件 名 长 度 (参见 图 18-3 ) 。 


表 18-5; Ext2 目录 项 中 的 字段 


类 型 字段 说 明 
__le32 inode 索引 节点 号 
__lel6 rec_len 目录 项 长 度 
ug name_len 文件 名 长 诬 
__u8 file_type 文件 类 型 
char [EXT2_NAME_LEN] name 文件 名 





file_type 字 段 存放 指定 文件 类 型 的 值 ( 见 表 18-4)。rec_len 字 有 段 可 以 被 解释 为 指向 下 
一 个 有 效 目 录 项 的 指针 : 它 是 偏 移 量 , 与 目录 项 的 起 始 地 址 相 加 就 得 到 下 一 个 有 效 目录 项 
的 起 始 地 址 。 为 了 删除 一 个 目录 项 , 把 它 的 inode 字 段 置 为 0 并 适当 地 增加 前 一 个 有 效 目 
录 项 rec_len 字 有 段 的 值 就 足够 了 。 仔细 看 一 下 图 18-3 的 rec_len 字 段 , 你 会 发 现 oldfile 
项 已 被 删除 ， 因 为 usr 的 rec_len 字 段 被 置 为 12+16 (ur 和 oldfile 目录 项 的 长 度 )。 


file type 
name_len 


inode rec_len 

















18-3:; Ext2 目录 的 一 个 例子 
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符号 链接 

如 前 所 述 ， 如 果 符 号 链接 的 路 径 名 小 于 等 于 60 个 字符 ， 就 把 它 存放 在 索引 节点 的 
i_blocks 字段 ， 该 字段 是 由 15 个 4 字 市 整数 组 成 的 数组 ， 因 此 无 需 数据 块 。 但 是 ， 如 
果 路 径 名 大 于 60 个 字符 ， 就 需要 一 个 单独 的 数据 块 。 


设备 文件 、 管 道 和 套 接 字 
这 些 类 型 的 文件 不 需要 数据 块 。 所 有 必要 的 信息 都 存放 在 索引 市 点 中 。 


Ext2 的 内 存 数据 结构 


为 了 提高 效率 ， 当 安装 Ext2 文件 系统 时 ， 存 放 在 Ext2 分 区 的 磁盘 数据 结构 中 的 大 部 分 
信息 被 拷贝 到 RAM 中 ， 从 而 使 内 核 避 免 了 后 来 的 很 多 读 操作 。 那 么 一 些 数据 结构 如 何 
经 常 更 新 昵 ? 让 我 们 考虑 一 些 基 本 的 操作 : 


。 当 一 个 新 文件 被 创建 时 , 必须 减少 Ext2 超 级 块 中 s_free_inodqes_count 字 段 的 值 
和 相应 的 组 摘 述 符 中 bg_free_inodes_count 字段 的 值 。 

。 如果 内 核 给 一 个 现 有 的 文件 追加 一 些 数据 , 以 使 分 配给 它 的 数据 块 数 因 此 也 增加 ， 
那么 就 必须 修改 Ext2 超级 块 中 s_free_bliocks_count 字段 的 值 和 组 描述 符 中 
bg_free_blocks_count 字段 的 值 。 

。 “即使 仅仅 重 写 一 个 现 有 文件 的 部 分 内 容 ， 也 要 对 Ext2 超级 块 的 s_wtime 字 段 进 行 
更 新 。 


因为 所 有 的 Ext2 磁盘 数据 结构 都 存放 在 Ext2 分 区 的 块 中 ， 因 此 ， 内 核 利 用 页 高 速 缓存 
来 保持 它们 最 新 (参见 第 十 五 章 中 的 “把 脏 页 写 入 磁盘 ”一 节 )。 


对 于 与 Ext2 文件 系统 以 及 文件 相关 的 每 种 数据 类 型 ， 表 18-6 详细 说 明了 在 磁盘 上 用 来 
表示 数据 的 数据 结构 .在 内 存 中 内 核 所 使 用 的 数据 结构 以 及 决定 使 用 多 大 容量 高 速 缓存 
的 经 验方 法 。 频 化 更 新 的 数据 总 是 存放 在 高 速 缓存 ， 也 就 是 说 , 这 些 数 据 一 直 存 放 在 内 
存 并 包含 在 页 高 速 缓存 中 , 直到 相应 的 Ext2 分 区 被 卸载 。 内 核 通过 让 缓冲 区 的 引用 计数 
器 一 直 大 于 0 来 达到 此 目的 。 


表 18-6: Ext2 数据 结构 的 VFS 映像 


类 型 磁盘 数据 结构 内 存 数据 结构 缓存 模式 
超级 块 ext2_super_block ext2_sb_info 总 是 缓存 
组 描述 符 ext2_group_desc Ext2_group_desc 总 是 缓存 
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表 18-6: Ext2 数据 结构 的 VFS 映像 ( 续 ) 


类 型 磁盘 数据 结构 内 存 数 据 结构 缓存 模式 
块 位 图 块 中 的 位 数组 缓冲 区 中 的 位 数组 动态 
索引 市 点 位 图 块 中 的 位 数组 缓冲 区 中 的 位 数组 动态 
索引 节点 ext2_inode ext2_inode_info 动态 
数据 块 字 有 数组 VFS 缓冲 区 动态 
空闲 索引 节点 ext2_inode 无 从 不 缓存 
空闲 块 字 届 数组 无 四 从 不 缓存 











在 任何 高 速 缓存 中 不 保存 “从 不 缓存 的 数据 , 因为 这 种 数据 表示 无 意义 的 信息 。 相 反 ， 
总 是 缓存 ”的 数据 也 总 在 RAM 中 , 这样 就 不 必 从 磁盘 读数 据 了 (但 是 , 数据 必须 周期 
性 地 写 回 磁盘 )。 除 了 这 两 种 极端 模式 外 ， 还 有 一 种 动态 模式 。 在 动态 模式 下 ， 只 要 相 
应 的 对 象 (索引 节点 、 数 据 块 或 位 图 ) 还 在 使 用 ， 它 就 保存 在 高 速 缓存 中 ， 而 当 文 件 关 
闭 或 数据 块 被 删除 后 ， 页 框 回收 算法 会 从 高 速 缓存 中 删除 有 关 数 据 。 


有 意思 的 是 , 索引 布点 与 块 位 图 并 不 永和 久保 存在 内 存 里 , 而 是 需要 时 从 磁盘 读 。 有 了 页 
高 速 缓存 , 最近 使 用 的 磁盘 块 保存 在 内 存 里 , 这样 可 以 避免 很 多 磁盘 读 (参见 第 十 五 章 
“把 块 存放 在 页 高 速 缓存 中 ”一 节 ) ( 注 2)。 


Ext2 的 超级 块 对 象 

在 第 十 二 章 “ 超 级 块 对 象 ” 一 节 我 们 介绍 过 ，VFS 超级 块 的 s_fs_info 字 有 段 指 同一 个 包 
含 文件 系统 信息 的 数据 结构 。 对 于 Ext2, 该 字段 指向 ext2_sb_info 类 型 的 结构 ， 它 包 
含 如 下 信息 : 

。 ”磁盘 超级 块 中 的 大 部 分 字段 

。 ”ss_sbh 指 针 ， 指 向 包含 磁盘 超级 块 的 缓冲 区 的 缓冲 区 首部 

。 ”s_es 指针， 指向 磁盘 超级 块 所 在 的 缓冲 区 

。 组 描述 符 的 个 数 s_qaesc_ per_block， 可 以 放 在 一 个 块 中 


。 ”ss_group_desc 指 针 ,， 指向 一 个 缓冲 区 (包含 组 描述 符 的 缓冲 区 ) 首部 数组 (通常 
一 项 就 够 ) 





注 2; 在 Linux 2.4 和 早期 的 版 本 中 ， 最 近 使 用 的 索引 节点 和 块 位 图 被 保存 在 特殊 高 速 缓存 的 
有 限 空 间 里 。 
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。 ”其 他 与 安装 状态 、 安 装 选 项 等 有 关 的 数据 


图 18-4 表示 的 是 与 Ext2 超 级 块 和 组 描述 符 有 关 的 缓冲 区 与 缓 促 区 首部 和 ext2_sb_info 
数据 结构 之 加 的 关系 。 





Ext2 分 区 


组 描述 符 组 描述 符 







VFS 的 超级 块 


ext2 sb info 


s_sbh 












s group_desc 





18-4: ext2_sb_info 数据 结构 


当 内 核 安装 Ext2 文 件 系 统 时 , 它 调用 ext2_fi11]_super() 消 数 来 为 数据 结构 分 配 空 间 ， 
并 写 入 从 磁盘 读 取 的 数据 (参见 第 十 二 章 “ 安 装 普 通 文 件 系 统 ” 一 节 )。 这 里 是 对 该 函 
数 的 一 个 简要 说 明 ， 只 强调 缓冲 区 与 描述 符 的 内 存 分 配 。 


i。 分配 一 个 ext2_sb_info 描 述 符 ,将 其 地 址 当 作 参 数 传递 并 存放 在 超级 块 的 s_fs_info 
字段 。 

2， 调用 __preadl) 在 缓冲 区 页 中 分 配 一 个 组 钟 区 和 缓冲 区 首部 。 然 后 从 磁盘 读 人 和 人 超 
级 块 存放 在 缓冲 区 中 。 在 第 十 五 章 的 “在 页 高 速 缓 存 中 搜索 块 ” 一 节 我 们 讨论 过 ， 
如 果 一 个 块 已 在 页 高 速 缓存 的 缓 钟 区 页 而 且 是 最 新 的 , 那么 无 需 再 分 配 。 将 缓冲 区 
首部 地 址 存放 在 Ext2 超级 块 对 象 的 s_sbh 字段 。 

3， ”分配 一 个 字 节 数组 ， 每 组 一 个 字 节 ， 把 它 的 地 址 存放 在 ext2_sb_info 描 述 符 的 
s_debts 字 段 (参见 本 章 后 面 的 “创建 索引 节点 ”一 市 )。 

4. ”分配 一 个 数组 用 于 存放 绥 冲 区 首部 措 针 ,每 个 组 描述 符 一 个 ,把 该 数组 地 址 存放 在 
ext2_sb info 的 s_group desc 字 段 。 

5. ”重复 调用 __bread() 分 配 缓冲 区 ， 从 位 盘旋 入 包含 Ext2 组 描述 符 的 块 。 把 缓 站 区 
首部 地 址 存放 在 上 一 步 得 到 的 s_group_desc 数组 中 。 
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6.， ”为 根 目 录 分 配 一 个 索引 节点 和 目录 项 对 象 , 为 超级 块 建立 相应 的 字段 , 从 而 能 够 从 
磁盘 读 和 人 根 索引 市 点 对 象 。 


很 显然 ，ext2_fil1l_super() 国 数 返 回 后 ,分 配 的 所 有 数据 结构 都 保存 在 内 存 里 ， 只 
当 Ext2 文件 系统 卸载 时 才 会 被 释放 。 当 内 核 必须 修改 Ext2 超级 块 的 字段 时 ， 它 只 要 把 
新 值 写 入 相应 缓冲 区 内 的 相应 位 置 然后 将 该 缓 串 区 标记 为 脏 即 可 。 


Ext2 的 索引 节点 对 象 


在 打开 文件 上 时, 要 执行 路 径 名 查找 。 对 于 不 在 目录 项 高 速 缓存 内 的 路 径 名 元 素 , 会 创建 
一 个 新 的 目录 项 对 象 和 索引 节点 对 象 (参见 第 十 二 章 “ 标 准 路 经 名 查找 ”一 节 ) 。 当 VEFS 
访问 一 个 Ext2 磁盘 索引 节点 时 ， 它 会 创建 一 个 ext2_inode_info 类 型 的 索引 节点 描述 
符 。 该 描述 符 包含 下 列 信息 : 


。 “存放 在 vfs_inode 字段 的 整个 VEFS 索引 节点 对 象 (参见 第 十 二 章 的 表 12-3 ) 

。 ”磁盘 索引 市 点 对 象 结构 中 的 大 部 分 字段 (不 保存 在 VFS 索引 节点 中 ) 

。 “索引 节点 对 应 的 1i_block_group 块 组 索引 (参见 本 章 前 面 “Ext2 磁盘 数据 结构 
= 

. i _next_alloc _block 和 i next_alloc_goal 字段， 分 别 存 放 着 最 近 为 文件 分 配 
的 磁盘 块 的 逻辑 块 号 与 物理 块 号 

. i_prealloc block 和 i_prealloc_count 字段 ,， 用 于 数据 块 预 分 配 (参见 本 章 后 
面 “分 配 数 据 块 ”一 市 ) 

。 xattr_sem 字 段 ， 一 个 读 写 信 号 量 ， 人 允许 增强 属性 与 文件 数据 同时 读 入 

. i_acl 和 i_default_acl 字段 ， 指 问 文件 和 的 ACL 


当 处 理 Ext2 文件 上 时，alloc_inode 超级 块 方法 是 由 ext2_alloc_inoqe() 国 数 实现 的 。 
它 首 先 从 ext2_inode_cachep slab 分 配器 高 速 缓存 得 到 一 个 ext2_inoqe_info 拉 述 
符 ， 然 后 返回 在 这 个 ext2_inode_info 扩 述 符 中 的 索引 节点 对 象 的 地 址 。 


创建 Ext2 文件 系统 


在 磁盘 上 创建 一 个 文件 系统 通常 有 两 个 阶段 。 第 二 步 格式 化 磁盘 , 以 使 磁盘 驱动 程序 可 
以 读 和 写 磁 盘 上 的 块 。 现 在 的 硬 磁盘 已 经 由 厂家 预先 格式 化 ， 因 此 不 需要 重新 格式 化 
在 Linux 上 可 以 使 用 superformat 或 fdformat 等 实用 程序 对 软盘 进行 格式 化 ,第 二 步 才 涉 
及 创建 文件 系统 ， 这 意味 着 建立 本 章 前 面 详 细 摘 述 的 结构 。 
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Ext2 文件 系统 是 由 实用 程序 mke2A 创建 的 。mke2fs 采用 下 列 缺 省 选项 ， 用 户 可 以 用 命 
令 行 的 标志 修改 这 些 选项 ; 

。 ” 块 大 小 : 1024 字 节 (小 文件 系统 的 缺 省 值 ) 

。 ” 片 大 小 : 块 的 大 小 ( 块 的 分 片 还 没有 实现 ) 

。 ”所 分 配 的 索引 节点 个 数 : 每 8192 字 节 的 组 分 配 一 个 索引 节点 

。 ”保留 块 的 百分比 : 5% 


mke2fs 程序 执行 下 列 操作 |: 


1. 初始 化 超级 块 和 组 换 述 符 。 
2. ”作为 选择 ， 检 查分 区 是 否 包含 有 缺陷 的 块 ， 如 果 有 ， 就 创建 一 个 有 缺陷 块 的 链表 


3， 对 于 每 个 块 组 , 保留 存放 超级 块 . 组 描述 符 . 索引 市 点 表 及 两 个 位 图 所 需要 的 所 有 
磁盘 块 。 


4. ”把 索引 布点 位 图 和 每 个 块 组 的 数据 映射 位 图 都 初始 化 为 0。 

5. ”初始 化 每 个 块 组 的 索引 布点 表 。 

6. ”创建 /root 目录 。 

7. 创建 losi+found 目录 ， 由 e2fsck 使 用 这 个 目录 把 丢失 和 找到 的 缺陷 块 连接 起 来 。 


8. ”在 前 两 个 已 经 创建 的 目录 所 在 的 块 组 中 ， 更 新 块 组 中 的 索引 布点 位 图 和 数据 块 位 
图 。 


9. ”把 有 缺陷 的 块 (如 果 存 在 ) 组 织 起 来 放 在 losi+found 目录 中 。 
让 我 们 看 一 下 mke2fs 是 如 何以 缺 省 选项 初始 化 Ext2 的 1.44 MB 软盘 的 。 


软盘 一 旦 被 安装 ，VFS 就 把 它 看 作 由 1412 个 块 组 成 的 一 个 卷 ， 每 块 大 小 为 1024 字 节 。 
为 了 查看 磁盘 的 内 容 ， 我 们 可 以 执行 如 下 Unix 命令 : 


$ dd if=/dev/fd0 bs=lk count=1440 | od -tx1l -Ax > /tmp/dump_hex 
从 而 获得 了 /imp 目录 下 的 一 个 文件 ， 这 个 文件 包含 十 六 进 制 的 软盘 内 容 的 转 储 〈 注 3)。 


通过 查看 dump_hex 文 件 我 们 可 以 看 到 ， 由 于 软盘 有 限 的 容量 ,一 个 单独 的 块 组 描述 符 
就 足够 了 。 我 们 还 注意 到 保留 的 块 数 为 72 (1440 块 的 5%)， 并 且 根 据 缺 省 选项 ， 索 引 
节点 表 必 须 为 每 8192 个 字 节 设置 一 个 索引 节点 ， 也 就 是 有 184 个 索引 节点 存放 在 23 个 
块 中 。 


注 3， 使 用 dumpesfs 和 debugfs 实用 程序 也 可 以 获得 有 关 Ext2 文件 系统 的 一 些 信息 。 
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表 18-7 总 结 了 按 缺 省 选项 如 何在 软盘 上 建立 Ext2 文件 系统 。 
表 18-7; 软盘 的 Ext2 块 分 配 








块 内 容 

0 5| 导 块 

1 超级 块 

2 包含 一 个 单独 的 块 组 描述 符 的 块 

3 数据 块 位 图 

4 索引 市 点 位 图 

SS 一 27 索引 节点 表 : 5$~ 10 一 一 保留 (2 是 root)， 11 ]ost+found， 12~184 
空闲 

28 根 和 目录 (包括 “.”、“.,” 及 “lost+found ”) 

29 lost+found 目录 (包括 “.” 和 “..”) 

30~40 给 lost+found 目录 预 分 配 保留 的 块 

41 一 1439 空闲 块 

Ext2 的 方法 


在 第 十 二 章 所 描述 的 关于 VFS 的 很 多 方法 在 Ext2 都 有 相应 的 实现 。 因 为 对 所 有 的 方法 
都 进行 描述 将 需要 整整 一 本 书 , 因此 我 们 仅仅 简单 地 回顾 一 下 在 Ext2 中 所 实现 的 方法 。 
一 旦 你 真正 搞 明 白 了 磁盘 和 内 存 数据 结构 ,你 就 应 当 能 理解 实现 这 些 方法 的 Ext2 函 数 的 
代码 。 


Ext2 超级 块 的 操作 
很 多 VFS 超级 块 操作 在 Ext2 中 都 有 具体 的 实现 ， 这 些 方 法 为 alloc_inodae、 


destroy_inode, read_inode, write inode., delete_inode., put_super, write_super. 


statfs、remount_fs 和 clear_inode。 超 级 块 方 法 的 地 址 存放 在 ext2_sops 指针 数组 中 。 


Ext2 索引 市 点 的 操作 


一 些 VFS 索引 节点 的 操作 在 Ext2 中 都 有 具体 的 实现 , 这 取决 于 索引 节点 所 指 的 文件 类 
型 。 


Ext2 的 普通 文件 和 目录 文件 的 索引 节点 操作 见 表 18-8。 每 个 方法 的 目的 在 第 十 二 章 的 “ 索 
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引 节 点 对 象 ”一 节 有 介绍 。 表 中 没有 列 出 普通 文件 和 目录 中 未 定义 的 方法 (NULL 指针 )。 
回忆 一 下 ， 如 果 方 法 未 定义 ，VFS 要 么 调用 通用 国 数 ， 要 么 什么 也 不 做 。 普 通 文 件 与 目录 
的 Ext2 方 法 地 址 分 别 存 放 在 ext2_file_inode_operations 和 和 ext2_dir_inode_operat ions 
表 中 。 


表 18-8: Ext2 普通 文件 与 目录 的 索引 节点 操作 


VFS 索引 节点 操作 普通 文件 目录 

create NULL ext2_create!() 
lookup NULL ext2_ lookup() 

link NULL ext2_1link!() 

unlink NULL ext2_unlink() 

syml ink NULL ext2_symlink() 
mkdir NULL ext2 mkdir() 

rmdir NULL ext2_rmdir() 
mknod NULL ext2_mknod() 
rename NULL ext2_rename ( ) 
truncate ext2 truncate!l) NULPD 

permission ext2_permission() ext2_permission!{() 
setattr ext2_setattr() ext2_setattr() 
setxattr generic_setxattr ( ) generic setxattr!() 
getxattr generic_getxattr() generic getxattr!() 
listxattr ext2_ listxattr() ext2 listxattr!() 
removexattr generic_removexattr{) generic_ removexattr() 





Ext2 的 符号 链接 的 索引 节点 操作 见 表 18-9 (省 略 未 定义 的 方法 ) 。 实 际 上 有 两 种 符号 链 
接 : 快速 符号 链接 (路 径 名 全 部 存放 在 索引 节点 内 ) 与 普通 符号 链接 ( 较 长 的 路 径 名 )。 
因此 ， 有 两 套 索 引 节 点 操作 ， 分 别 存 放 在 ext2_fast_symlink_inode_operations 和 


ext2_symlink_inodqe_operations 表 中 。 


表 18-9: Ext2 的 快速 及 普通 符号 链接 的 索引 节点 操作 


VFS 索引 节点 操作 快速 符号 链接 普通 符号 链接 
readlink generic_readlink () generic_ readlink () 
follow_link ext2 follow 11Ink() page_follow_link_ light() 


put_link NULL page_put_link!) 
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表 18-9; Ext2 的 快速 及 普通 符号 链接 的 索引 节 扣 操 作 ( 续 ) 





VFS 索引 节点 操作 快速 符号 链接 普通 符号 链接 

setxattr generic setxattr!() generic setxattr() 
getxattr generic_getxattr() generic getxattr() 
listxattr ext2_listxattr!() ext2_ listxattr!() 
removexattr generic removexattr!() generic removexattr() 


如 果 索 引 节点 指 的 是 一 个 字符 设备 文件 、 块 设备 文件 或 命名 管道 (参见 第 十 九 章 中 的 
“FIFO” 一 节 )， 那 么 这 种 索引 节点 的 操作 不 依赖 于 文件 系统 ， 其 操作 分 别 位 于 


chrdev_inode operations. blkdev_inode operations 和 fifo_inode_ operations 


表 中 。 


Ext2 的 文件 操作 


表 18-10 列 出 了 Ext2 文 件 系统 特定 的 文件 操作 。 正如 你 看 到 的 , 一 些 VFS 方法 是 由 很 多 
文件 系统 共用 的 通用 函数 实现 的 。 这 些 方法 的 地 址 存放 在 ext2_file_operations 表 中 。 


表 18-10: Ext2 文件 操作 


VFS 文件 操作 Ext2 方法 

llseek generic file_ llseek!{() 
read generic file read!{() 
write generic file write!l) 
aio_read generic_ file alo read ( ) 
alo_write generic_file aio write() 
loctl ext2_ ioctl() 

mmap generic_file_ mmap() 
open generic_file_ open() 
release ext2 release _ file!{) 
fsync ext2_sync_filel() 

readv generic_file readyv!() 
writev generic_file writeyv!{) 


sendfile generic_file sendfile!() 
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注音 ，Ext2 的 reaqQ 和 write 方法 是 分 别 通过 generic file read{() 和 generic file write() 
国 数 实现 的 。 这 两 个 函数 在 第 十 五 章 的 “从 文件 中 读 取 数据 ”和 “ 写 入 文件 ”两 节 进 行 了 描述 。 


管理 Ext2 磁盘 空间 


文件 在 磁盘 的 存储 不 同 于 程序 员 所 看 到 的 文件 , 这 表现 在 两 个 方面 : 块 可 以 分 散在 磁盘 
上 (尽管 文件 系统 尽力 保持 块 连续 存放 以 提高 访问 速度 )， 以 及 程序 员 看 到 的 文件 似 平 
比 实际 的 文件 大 ， 这 是 因为 程序 可 以 把 洞 引 入 文件 〈 通 过 1seek () 系统 调用 )。 


在 本 节 , 我 们 将 介绍 Ext2 文 件 系 统 如 何 管理 磁盘 空间 , 也 就 是 说 , 如 何 分 配 和 释放 索引 
节点 和 数据 块 。 有 两 个 主要 的 问题 必须 考虑 : 


。 ”空间 管理 必须 尽力 避免 文件 碎片 , 也 就 是 说 ,避免 文件 在 物理 上 存放 于 几 个 小 的 、 
不 相 邻 的 盘 块 上 ,文件 碎片 增加 了 对 文件 的 连续 读 操作 的 平均 时 间 , 因为 在 读 操作 
期 间 , 磁头 必须 频繁 地 重新 定位 ( 注 4)。 这 个 问题 类 似 于 在 第 八 章 的 “伙伴 系统 算 
法 ”一 节 中 所 讨论 的 RAM 的 外 部 碎片 问题 。 


。 ”空间 管理 必须 考虑 效率 ， 也 就 是 说 ， 内 核 应 该 能 从 文件 的 偏 移 量 快速 地 导出 Ext2 
分 区 上 相应 的 逻辑 块 号 ,为 了 达到 此 目的 ,内 核 应 该 尽 可 能 地 限制 对 磁盘 上 寻 址 表 
的 访问 次 数 ， 因 为 对 该 表 的 访问 会 极 大 地 增加 文件 的 平均 访问 时 间 。 


创建 索引 节点 


ext2_new_inoqe () 国 数 创建 Ext2 磁盘 的 索引 市 点 ， 返 回 相应 的 索引 节点 对 象 的 地 址 
(或 失败 时 为 NULL)。 该 函数 谨慎 地 选择 存放 该 新 索引 节点 的 块 组 它 将 无 联系 的 目录 
散 放 在 不 同 的 组 , 而 且 同 时 把 文件 存放 在 父 目录 的 同一 组 为 了 平衡 普通 文件 数 与 块 组 
中 的 目录 数 ，Ext2 为 每 一 个 块 组 引入 “ 债 (debt)” 参 数 。 


该 函数 作用 于 两 个 参数 : dir, 一 个 目录 对 应 的 索引 节点 对 象 的 地 址 ， 新 创建 的 索引 节 
点 必须 插入 到 这 个 目录 中 ; mode， 要 创建 的 索引 节点 的 类 型 。 后 一 个 参数 还 包含 一 个 
MS_SYNCHRONOUS 标志 ， 该 标志 请 求 当 前 进程 一 直 挂 起 ， 直 到 索引 节点 被 分 配 。 该 国 
数 执行 如 下 操作 : 


1. ”调用 new_inode() 分 配 一 个 新 的 VFS 索引 节点 对 象 ， 并 把 它 的 i_sb 字 有 段 初始 化 为 
存放 在 dir->i_sb 中 的 超级 块 地 址 ,然后 把 它 追 加 到 正在 用 的 索引 节点 链表 与 超级 
块 链表 中 (参见 第 十 二 童 “索引 市 点 对 象 ”一 市 )。 








注 4: 请 注意 ,把 一 个 文件 跨 过 块 组 进行 分 片 是 一 件 坏 事 , 而 为 了 在 一 个 块 中 存放 多 个 文件 把 
块 进行 分 片 (还 没 实现 ) 是 一 件 好 事 ， 这 二 者 之 间 是 不 同 的 。 
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注 5: 
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如 果 新 的 索引 节点 是 一 个 目录 ,函数 就 调用 find_group_orlov() 为 目录 找到 一 个 
合适 的 块 组 ( 注 5)。 该 函数 执行 如 下 试探 法 : 


da. 


以 文件 系统 根 root 为 父 目录 的 目录 应 该 分 散在 各 个 组 。 这 样 ,函数 在 这 些 块 组 
去 查找 一 个 组 , 它 的 空闲 索引 市 点 数 和 空闲 块 数 比 平 均值 高 。 如 果 设 有 这 样 的 
组 则 跳 到 第 2c 步 。 


如 果 满 足下 列 条 件 , 仍 套 目录 ( 父 目 录 不 是 文件 系统 根 root) 就 应 被 存放 到 父 目录 组 : 
。 ”该 组 没有 包含 太 多 的 目录 
。 ”该 组 有 足够 多 的 空闲 索引 和 点 


。 该 组 有 一 点 小 “ 债 ” 。( 块 组 的 债 存放 在 一 个 ext2_sb_info 摘 述 符 的 s_debts 
字段 所 指 同 的 计数 器 数组 中 。 每 当 一 个 新 目录 可 入 ， 债 加 一 ; 每 当 其 他 类 
型 的 文件 加 入 ， 债 减 一 ) 


如 果 父 目录 组 不 满足 这 些 条 件 , 那么 选择 第 一 个 满足 条 件 的 组 。 如 有 果 没 有 满足 
条 件 的 组 ， 则 跳 到 第 2c 步 。 


. 这 是 一 个 “ 退 一 步 ” 原 则 ， 当 找 不 到 合适 的 组 时 使 用 。 隧 数 从 包含 父 目 录 的 块 


组 开始 选择 第 一 个 满足 条 件 的 块 组 , 这 个 条 件 是 : 它 的 空 闪 索引 市 点 数 比 每 块 
组 空间 索引 市 点 数 的 平均 值 大 。 


如 果 新 索引 市 点 不 是 个 目录 , 则 调用 find_group_other()，, 在 有 空闲 索引 布点 的 
块 组 中 给 它 分 配 一 个 。 该 国 数 从 包含 父 目 录 的 组 开始 往 下 找 。 有 具体 如 下 : 


da. 


从 包含 父 目 录 dir 的 块 组 开始 , 执行 快速 的 对 数 查 找 。 这 种 算法 要 查找 log(n) 
个 块 组 ， 这 里 4 是 块 组 总 数 。 该 算法 一 直 向 前 查找 直到 找到 一 个 可 用 的 块 组 ， 
县 体 如 下 : 如 果 我 们 把 开始 的 块 组 称 为 i， 那么 , 该 算法 要 查找 的 块 组 为 i mod 
(n), i+l] mod (n), i+1+2 mod (n), itl1+2+4 mod (n)， 壬 等 。 


如 果 该 算法 没有 找到 含有 空 闪 索引 市 点 的 块 组 , 就 从 包含 父 目录 dir 的 块 组 开 
始 执行 彻底 的 线性 查找 。 


调用 read_inode_pbitmap () 得 到 所 选 块 组 的 索引 节点 位 图 ， 并 从 中 寻找 第 一 个 空 
位 ， 这 样 就 得 到 了 第 一 个 空间 磁盘 索引 市 点 号 。 


分 配 磁盘 索引 节点 : 把 索引 节点 位 图 中 的 相应 位 置 位 ,并 把 含有 这 个 位 图 的 缓冲 区 
标记 为 脏 。 上 此外， 如果 文件 系统 安装 时 指定 了 MS_SYNCHRONOUS 标 志 (参见 第 十 二 
章 中 的 “安装 普通 文件 系统 ”一 节 ) ， 则 调用 sync_dirty_buffer() 开 始 1/0 写 操 
作 并 等 待 ， 直 到 写 操作 终止 。 








安装 Ext2 文件 系统 还 可 以 带 有 一 个 选项 标志 , 它 强 制 内 核 使 用 一 个 更 简单 、 更 老式 的 分 
配 策 略 ， 该 策略 是 由 find_group_dqir() 函 数 实现 的 。 
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减 小 组 描述 符 的 bg_free_inodes_count 字 7 段 。 如 果 新 的 索引 布点 是 一 个 目录 , 则 
增加 lbg_used_dirs_count 字段 ， 并 把 含有 这 个 组 描述 符 的 缓冲 区 标记 为 脏 。 


依据 索引 节点 指向 的 是 普通 文件 或 目录 ,相应 增 减 超级 块 内 s_debts 数 组 中 的 组 计 
数 器 。 


减 小 ext2_sb_info 数 据 结 构 中 的 s_freeinodes_counter 字 有 段 ; 而 且 如 果 新 索引 
节点 是 目录 ， 则 增 大 ext2_sb_info 数 据 结 构 的 s_dirs_counter 字段 。 


将 超级 块 的 s_airt 标志 置 1， 并 把 包含 它 的 缓冲 区 标记 为 脏 。 


. 把 VFS 超级 块 对 象 的 s_dirt 字段 置 1。 


初始 化 这 个 索引 节点 对 象 的 字段 ,特别 是 ,设置 索引 节点 号 i_no, 并 把 xtime.tv_sec 
的 值 拷贝 到 i_atime、i mtime 及 i_ctime。 把 这 个 块 组 的 索引 赋 给 ext2_inode_info 
结构 的 i_block_group 字 段 。 关 于 这 些 字 段 的 含义 请 参考 表 18-3。 


初始 化 这 个 索引 节点 对 象 的 访问 控制 列表 (ACL)。 


.， 将 新 索引 节点 对 象 插 入 散 列表 inoqae_hashtable, 调用 mark_inoqe_dqirty() 把 该 


索引 节点 对 象 移 进 超级 块 胜 索引 节点 链表 (参见 第 十 二 章 “索引 市 点 对 象 ” 一 节 )。 


调用 ext2_prereadq_inoqe () 从 磁盘 读 和 包含 该 索引 节点 的 块 , 将 它 存 人 页 商 速 组 
存 。 进 行 这 种 预 读 是 因为 最 近 创 建 的 索引 节点 可 能 会 被 很 快 写 入 。 


15. 返回 新 索引 节点 对 象 的 地 址 。 


删除 索引 节 氮 


用 ext2_free_inode() 函 数 删 除 -一 个 磁盘 索引 市 点 ,把 磁盘 索引 市 点 表示 为 索引 节点 对 
象 ， 其 地址 作为 参数 来 传递 。 内 核 在 进行 一 系列 的 清除 操作 (包括 清除 内 部 数据 结构 和 
文件 中 的 数据 ) 之 后 调用 这 个 国 数 。 有 具体 来 说 ， 它 在 下 列 操作 完成 之 后 才 执 行 : 索引 节 
点 对 象 已 经 从 散 列 表 中 删除 ,指向 这 个 索引 节点 的 最 后 一 个 硬 链接 已 经 从 适当 的 目录 中 
删除 ,文件 的 长 度 截 为 0 以 回收 它 的 所 有 数据 块 (参见 本 章 后 面 “释放 数据 块 ” 一 节 )。 
国 数 执行 下 列 操作 : 


1 


调用 clear_inoqae () ， 它 依次 执行 如 下 步骤 ; 


a. 删除 与 索引 节点 关联 的 “间接 ”及 缓冲 区 《参见 后 面 “ 数 据 块 录 址 ”一 节 )。 它 
们 都 存放 在 一 个 链表 中 ,该 链表 的 首部 在 address_space 对 象 inode->i_data 
的 private_list 字段 (参见 第 十 五 章 “address_space 对 象 ” 一 节 ) 。 


b、 如 果 索 引 节 点 的 I_LOCK 标志 置 位 ， 则 说 明 索 引 节 点 中 的 某 些 缓冲 区 正 处 于 
IO 数据 传送 中 ， 于 是 ， 销 数 挂 起 当前 进程 ， 直 到 这 些 IO 数据 传送 结束 。 


c， 调用 超级 块 对 象 的 clear_inode 方 法 (如果 已 定义 ), 但 Ext2 文 件 系 统 疫 有 定 
义 这 个 方法 。 
d.， 如 果 索 引 节 点 指向 一 个 设备 文件 , 则 从 设备 的 索引 节点 链表 中 删除 索引 节点 对 
象 ， 这 个 链表 要 么 在 cdev 字符 设备 描述 符 的 cdev 字段 (参见 第 十 三 章 “ 字 
符 设 备 驱 动 程序 ”一 节 ), 要 么 在 block_device 块 设 各 接 述 符 的 lbd_inodes 字 
段 (参见 第 十 四 章 “ 块 设备 ”一 节 )。 
e， 把 索引 节点 的 状态 置 为 I_CLEAR (索引 节点 对 象 的 内 容 不 再 有 意义 )。 
2.， ”从 每 个 块 组 的 索引 节点 号 和 索引 节点 数 计算 包含 这 个 磁盘 索引 节点 的 块 组 的 索引 。 
3. ”调用 reagd_inode_bitmap() 得 到 索引 市 点 位 图 。 


4. ”增加 组 描述 符 的 bg_free_inodes_count 字 段 。 如 果 删 除 的 索引 节点 是 一 个 目录 ， 
那么 也 要 减 小 bg_used_dirs_count 字 段 , 把 这 个 组 描述 符 所 在 的 缓冲 区 标记 为 脏 。 


5， ”如果 删 除 的 索引 节点 是 一 个 目录 ， 就 减 小 ext2_sb_info 结 构 的 s_qirs_counter 
字段 ， 把 超级 块 的 s_dirt 标志 置 1!， 并 把 它 所 在 的 缓冲 区 标记 为 脏 。 


6. ”清除 索引 节点 位 图 中 这 个 磁盘 索引 节点 对 应 的 位 ,并 把 包含 这 个 位 图 的 缓 神 区 标记 
为 脏 。 此 外 ， 如 果 文 件 系 统 以 MS_SYNCHRONIZE 标志 安装 ， 则 调用 - 
sync_dirty_buffer() 并 等 待 ， 直 到 在 位 图 缓冲 区 上 的 写 操 作 终 止 。 


数据 块 寻 址 


每 个 非 空 的 普通 文件 都 由 一 组 数据 块 组 成 。 这 些 块 或 者 由 文件 内 的 相对 位 置 (它们 的 文 
件 块 号 ) 来 标识 , 或 者 由 磁盘 分 区 内 的 位 置 (它们 的 逻辑 块 号 ) 来 标识 (参见 第 十 四 章 
的 “ 块 设备 的 处 理 ” 一 市 )。 


从 文件 内 的 偏 移 量 / 导 出 相应 数据 块 的 逻辑 块 号 需要 两 个 步骤 . 
1. ”从 偏 移 量 f 导 出 文件 的 块 号 ， 即 在 偏 移 量 /处 的 字符 所 在 的 块 索引 。 
2. ”把 文件 的 块 号 转化 为 相应 的 逻辑 块 号 。 


因为 Unix 文件 不 包含 任何 控制 字符 , 因此 ， 导 出 文件 的 第 f 个 字符 所 在 的 文件 块 号 是 相 
当 容 易 的 ， 只 是 用 f 除 以 文件 系统 块 的 大 小 ， 并 取 整 即 可 。 


例如 ,让 我 们 假定 块 的 大 小 为 4KB 。 如 果 j 小 于 4096, 那么 这 个 字符 就 在 文件 的 第 一 个 
数据 块 中 ， 其 文件 的 块 号 为 0。 如 果 f 等 于 或 大 于 4096 而 小 于 8192， 则 这 个 字符 就 在 文 
件 块 号 为 1 的 数据 块 中 ， 以 此 类 推 。 
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只 用 关注 文件 的 块 号 确实 不 错 。 但是， 由 于 Ext2 文 件 的 数据 块 在 磁盘 上 不 必 是 相 邻 的 ， 
因此 把 文件 的 块 号 转化 为 相应 的 好 辑 块 号 可 个 是 这 么 直截了当 的 。 


因此 ,Ext 文件 系统 必须 提供 一 种 方法 , 用 这 种 方法 可 以 在 磁盘 上 建立 每 个 文件 块 号 与 
相应 逻辑 块 写 之 间 的 关系 。 在 索引 市 点 内 部 部 分 实现 了 这 种 映射 ( 回 到 了 AT&T Unix 
的 早期 版 本 )。 这 种 映射 也 涉及 一 些 包含 额外 指针 的 专用 块 ， 这 些 块 用 来 处 理 大 型 文件 
的 索引 市 点 的 扩展 。 


磁盘 索引 节点 的 1 block 字 段 是 一 个 有 EXT2_N_BLOCKS 个 元 素 且 包含 逻辑 块 号 的 数 
组 ,在 下 面 的 讨论 中 ， 我 们 假定 EXT2_N_BLOCKS 的 默认 值 为 15。 如 图 18-5 所 示 ， 这 
个 数组 表示 一 个 大 型 数据 结构 的 初始 化 部 分 。 正 如 从 图 中 所 看 到 的 , 数组 的 15 个 元 素 有 
4 种 不 同 购 类 型 : 
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图 18-5， 对 文件 的 数据 块 进行 寻 址 的 数据 结构 


。 ”最 初 的 12 个 元 素 产 生 的 逻辑 块 号 与 文件 最 初 的 12 个 块 对 应 , 即 对 应 的 文件 块 号 从 
Qh 


。 丰 标 12 中 的 元 素 包 含 一 个 块 的 逻辑 块 号 (叫做 间接 块 ), 这 个 块 表示 修 辑 块 号 的 一 
个 二 级 数组 。 这 个 数组 的 元 素 对 应 的 文件 块 号 从 12~b/4+11, 这 里 5 是 文件 系统 的 
块 大 小 (每 个 馆 辑 块 号 占 4 个 字 市 ， 因 此 我 们 在 式 子 中 用 4 作 除 数 )。 因 此 ， 内 核 
为 了 查找 指向 一 个 块 的 指针 儿 须 先 访问 这 个 元 素 , 然后 ,在 这 个 块 中 找到 另 一 个 指 
向 最 终 块 (包含 文件 内 容 ) 的 指针 。 
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。 ”下 标 13 中 的 元 素 包含 一 个 间接 块 的 逻辑 块 号 , 而 这 个 块 包含 逻辑 块 号 的 一 个 二 级 
数组 , 这 个 二 级 数组 的 数组 项 依次 指向 三 级 数组 , 这 个 三 级 数组 存放 的 才 是 文件 块 
号 对 应 的 逻辑 块 号 ， 范 围 从 b/4+12~(b/4)?+(b/4)+11。 


。 最后， 下 标 14 中 的 元 素 使 用 三 级 间接 索引 ， 第 四 级 数组 中 存放 的 才 是 文件 块 号 对 
应 的 逻辑 块 号 ， 范围 从 (b/4)*+(b/4)+12~(b/4)3+(b/4)*+(b/4)+11。 


在 图 18-5 中 , 块 内 的 数字 表示 相应 的 文件 块 号 。 稍 头 〈 表 示 存 放 在 数组 元 素 中 的 逻辑 块 
号 ) 指示 了 内 核 如 何 通过 间接 块 找到 包含 文件 实际 内 容 的 块 。 


注意 这 种 机 制 是 如 何 支 持 小 文件 的 。 如 果 文 件 需要 的 数据 块 小 于 12, 那么 两 次 磁盘 访问 
就 可 以 检索 到 任何 数据 : 一 次 是 读 磁盘 索引 节点 i_block 数 组 的 一 个 元 素 , 另 一 次 是 读 
所 需要 的 数据 块 。 对 于 大 文件 来 说 ， 可 能 需要 三 四 次 的 磁盘 访问 才能 找到 需要 的 块 。 实 
际 上 , 这 是 一 种 最 坏 的 估计 ,因为 目录 项 、 索 引 布 点 、 页 高 速 缓存 都 有 助 于 极 大 地 减少 
实际 访问 磁盘 的 次 数 。 


还 要 注意 文件 系统 的 块 大 小 是 如 何 影响 寻 址 机 制 的 ,因为 大 的 块 允许 Ext2 把 更 多 的 逻辑 
块 号 存放 在 一 个 单独 的 块 中 。 表 18-11 显 示 了 对 每 种 块 大 小 和 每 种 寻 址 方式 所 存放 文件 
大 小 的 上 限 。 例如 ,如 果 块 的 大 小 是 1024 字 节 , 并 且 文 件 包含 的 数据 最 多 为 268KB， 那 
么 , 通过 直接 映射 可 以 访问 文件 最 初 的 12KB 数据 ， 通过 简单 的 间接 映射 可 以 访问 剩余 
的 13~268KB 的 数据 。 大 于 2GB 的 大 型 文件 通过 指定 O_LARGEFILE 打 开标 志 必 须 在 32 
位 体系 结构 上 进行 打开 。 


表 18-11: 数据 块 寻 址 的 文件 大 小 上 界 





块 大 小 直接 一 次 间接 二 次 间接 三 次 间接 
1024 12 KB 268 KB 64.26 MB 16.06 GB 
2048 24 KB 1.02 MB $513.02 MB 256.5 GB 
4096 48 KB 4.04 MB 4 GB 一 4 了 B 
文件 的 洞 


文件 的 洞 Wile hole) 是 普通 文件 的 一 部 分 , 它 是 一 些 空 字符 但 没有 存放 在 磁盘 的 任何 数 
据 块 中 。 洞 是 Unix 文件 一 直 存 在 的 一 个 特点 。 例 如 ， 下 列 的 Unix 命令 创建 了 第 一 个 字 
节 是 铜 的 文件 。 


$ echo -n "X" | dd of=/tmp/hole bs=1024 seek=6 


现在 ，/tmp/hole 有 6145 个 字符 (6144 个 空 字符 加 一 个 XX 字符 )， 然 而 ， 这 个 文件 在 磁 
盘 上 只 占 一 个 数据 块 。 
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引入 文件 的 洞 是 为 了 避免 磁盘 空间 的 浪费 。 它 们 被 广泛 地 用 在 数据 库 应 用 中 , 更 一 般 地 
说 ， 用 于 在 文件 上 进行 散 列 的 所 有 应 用 。 


文件 洞 在 Ext2 中 的 实现 是 基于 动态 数据 块 的 分 配 的 : 只 有 当 进 程 需要 加 一 个 块 写 数据 
时 ， 才 真正 把 这 个 块 分 配给 文件 。 每 个 索引 节点 的 i_size 字 段 定 义 程序 所 看 到 的 文件 
大 小 , 包括 洞 , 而 i_blocks 字 段 存 放 分 配给 文件 有 效 的 数据 块 数 (以 512 字 市 为 单位 )。 


在 前 面 dd 命令 的 例子 中 ,假定 /timp/hole 文件 创建 在 块 大 小 为 4096 的 Ext2 分 区 上 。 其 
相应 磁盘 索引 节点 的 1 _size 字 段 存 放 的 数 为 6145,， 而 i blocks 字 段 存 放 的 数 为 8 ( 因 
为 每 4096 字 节 的 块 包含 8 个 512 字 节 的 块 )。i_block 数 组 的 第 二 个 元 素 〈 对 应 块 的 文 
件 块 号 为 1) 存放 已 分 配 块 的 逻辑 块 号 ， 而 数组 中 的 其 他 元 素 都 为 空 (参看 图 18-6 ) 。 


分 配 数据 块 

当 内 核 要 分 配 一 个 数据 块 来 保存 Ext2 普 通 文 件 的 数据 时 , 就 调用 ext2_get_block() 国 
数 。 如 果 块 不 存在 , 该 函数 就 自动 为 文件 分 配 块 。 请 记 住 , 每 当 内 核 在 Ext2 普 通 文 件 上 
执行 读 或 写 操作 时 就 调用 这 个 图 数 (参见 第 十 六 章 “ 从 文件 中 读 取 数据 ”和 “ 写 和 文件” 
两 节 )， 显 然 ， 这 个 函数 只 在 页 高 速 缓存 内 没有 相应 的 块 时 才 被 调用 。 
ext2_get_block() 函 数 处 理 在 “数据 块 寻 址 ”一 节 描 述 的 数据 结构 ， 并 在 必要 时 调用 
ext2_alloc_block() 困 数 在 Ext2 分 区 真正 搜索 一 个 空闲 块 。 如 果 需 要 ， 该 国 数 还 为 间 
接 寻 址 分 配 相 应 的 块 (参见 图 18-5 ) 。 


[| 
文件 6 | 


/tmp/hole \0| \o| ol AMOAO | \0| X 


数据 块 Ne \o| x 


i block 0 0|0 





18-6: 起 始 部 分 有 润 的 文件 


为 了 减少 文件 的 碎片 ,Ext2 文 件 系统 尽力 在 已 分 配给 文件 的 最 后 一 个 块 附近 找 一 个 新 块 
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分 配给 该 文件 。 如 有 果 失 败 , Ext2 文 件 系 统 又 在 包含 这 个 文件 索引 市 点 的 块 组 中 搜寻 一 个 
新 的 块 。 作 为 最 后 一 个 办 法 ， 可 以 从 其 他 一 个 块 组 中 获得 空闲 块 。 


Ext2 文 件 系统 使 用 数据 块 的 预 分 配 策略 。 文件 并 不 仅仅 获得 所 需要 的 块 , 而 是 获得 一 组 
多 达 8 个 邻接 的 块 。ext2_inode_info 结 构 的 i_prealloc_count 守 7 段 存放 预 分 配给 荣 
一 文件 但 还 没有 使 用 的 数据 块 数 , 而 i_prealloc_block 字 段 存放 下 一 次 要 使 用 的 预 分 
配 块 的 逻辑 块 号 。 当 下 列 情况 发 生 时 , 释放 预 分 配 而 一 直 没 有 使 用 的 块 ， 当 文件 被 关闭 
时 ， 当 文件 被 缩短 时 ， 或 者 当 一 个 写 操作 相对 于 引发 块 预 分 配 的 写 操作 不 是 顺序 的 时 。 


ext2_alloc_block() 国 数 接收 的 参数 为 指向 索引 节点 对 象 的 指针 、 目 标 (goal) 和 存 
放 错 误 码 的 变量 地 址 。 目标 是 一 个 逻辑 块 号 , 表示 新 块 的 首选 位 置 。ext2_getblk() 消 
数 根据 下 列 的 试探 法 设置 目标 参数 : 


1. ”如 采 正 被 分 配 的 块 与 前 面 已 分 配 的 块 有 连续 的 文件 块 号 , 则 目标 就 是 前 一 块 的 逻辑 
块 号 加 1。 这 很 有 意义 ， 因 为 程序 所 看 到 的 连续 的 块 在 磁盘 上 将 会 是 相 邻 的 。 


2. 如果 第 一 条 规则 不 适用 , 并 且 至 少 给 文件 已 分 配 了 一 个 块 , 那么 目标 就 是 这 些 块 的 
逻辑 块 号 中 的 一 个 。 更 确切 地 说 , 目标 是 已 分 配 块 的 逻辑 块 号 ,位 于 文件 中 待 分 配 
块 之 前 。 

3. ”如 果 前 面 的 规则 都 不 适用 ,那么 目标 就 是 文件 索引 布点 所 在 的 块 组 中 第 一 个 块 的 逻 
辑 块 写 (不 必 空 几 )。 


ext2_alloc_block() 函 数 检 查 目 标 是 否 指向 文件 的 预 分 配 块 中 的 一 块 。 如 果 是 ， 就 分 
配 相 应 的 块 并 返回 它 的 逻辑 块 号 ; 否则， 丢弃 所 有 剩余 的 预 分 配 块 并 调用 


ext2_ new block()., 
ext2_new_block() 图 数 用 下 列 策 略 在 Ext2 分 区 内 搜寻 一 个 空闲 块 : 


1. 如果 传递 给 ext2_alloc_block() 的 首选 块 (目标 块 ) 是 空 闪 的 ， 就 分 配 它 。 
2. 如果 目 标 为 忙 ， 就 检查 首选 块 后 的 其 余 块 之 中 是 否 有 空 闪 的 块 。 


3. ”如 果 在 首选 块 附 近 设 有 找到 空 闪 块 , 就 从 包含 目标 的 块 组 开始 ， 查 找 所 有 的 块 组 。 
对 每 个 块 组 : 


a. 有 寻找 至 少 有 8 个 相 邻 空 闪 块 的 一 个 组 块 。 
b. 如 果 没 有 找到 这 样 的 一 组 块 ， 就 寻找 一 个 单独 的 空闲 块 。 
只 要 找到 一 个 空 闪 块 ， 搜 索 就 结束 。 在 结束 前 ，ext2_new_block() 函 数 还 尽力 在 找到 


空闲 块 附 近 的 块 中 找 8 个 空闲 块 进行 预 分 配 , 并 把 磁盘 索引 节点 的 1 _prealloc_block 
和 i_prealloc_count 字段 置 为 适当 的 块 位 置 及 块 数 。 
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释放 数据 块 

当 进 程 删 除 一 个 文件 或 把 它 的 长 度 截 为 0 时 ， 其 所 有 数据 块 必须 回收 。 这 是 通过 调用 
ext2_truncate() 函 数 (其 参数 是 这 个 文件 的 索引 节点 对 象 的 地 址 ) 来 完成 的 。 实际 上 ， 
这 个 国 数 扫描 磁盘 索引 节点 的 1_block 数 组 , 以 确定 所 有 数据 块 的 位 置 和 间接 寻 址 用 的 
块 的 位 置 。 然 后 反复 调用 ext2_free_blocks() 国 数 释放 这 些 块 。 


ext2_free_blocks() 国 数 释 放 一 组 含有 一 个 或 多 个 相 邻 块 的 数据 块 。 除 ext2._ 
truncate() 调 用 它 外 ， 当 丢弃 文件 的 预 分 配 块 时 也 主要 调用 它 (参见 前 面 的 “分 配 数 
据 块 ” 一 节 )。 国 数 参 数 如 下 : 


inode 
文件 的 索引 节点 对 象 的 地 址 。 


block 
要 释放 的 第 一 个 块 的 逻辑 块 号 。 


Count 
要 释放 的 相 邻 块 数 。 
这 个 畏 数 对 每 个 要 释放 的 块 执行 下 列 操作 : 


1. 获得 要 释放 块 所 在 块 组 的 块 位 图 。 
2. ”把 块 位 图 中 要 释放 的 块 的 对 应 位 清 0， 并 把 位 图 所 在 的 缓冲 区 标记 为 脏 。 
3. 增加 块 组 描述 符 的 bg_free_blocks_count 字段 ， 并 把 相应 的 缓冲 区 标记 为 脏 。 


4. 增加 磁盘 超级 块 的 s_free_blocks_count 字段 ， 并 把 相应 的 缓冲 区 标记 为 脏 ， 把 
超级 块 对 象 的 s_dirt 标记 置 位 。 


5. 如果 Ext2 文件 系统 安装 时 设置 了 MS_SYNCHRONOUS 标 志 ， 则 调用 sync_dirty_ 
buffer() 并 等 待 ， 直 到 对 这 个 位 图 缓冲 区 的 写 操作 终止 。 


Ext3 文件 系统 


在 本 节 我 们 将 简单 描述 从 Ext2 发 展 而 来 的 增强 型 文件 系统 ， 即 Ext3。 这 个 新 的 文件 系 
统 在 设计 时 曾 秉持 两 个 简单 的 概念 : 


。 ”成 为 一 个 日 志文 件 系统 《 参 见 下 一 市 ) 
。 ” 尽 可 能 与 原来 的 Ext2 文件 系统 兼容 
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Ext3 完全 达到 了 这 两 个 目标 。 尤 其 是 ， 它 很 大 程度 上 是 基于 Ext2 的 ， 因 此 ， 它 在 磁盘 
上 的 数据 结构 从 本 质 上 与 Ext2 文 件 系 统 的 数据 结构 是 相同 的 。 事 实 上 ， 如 果 Ext3 文件 
系统 已 经 被 彻底 卸载 , 那么 就 可 以 把 它 作为 Ext2 文 件 系 统 来 重新 安装 ; 反之 , 创建 Ext2 
文件 系统 的 日 志 并 把 它 作 为 Ext3 文件 系统 来 重新 安装 ， 也 是 一 种 简单 、 快 速 的 操作 。 


由 于 Ext3 与 Ext2 之 间 的 兼容 性 ， 本 章 前 面 几 节 的 很 多 描述 也 适用 于 Ext3。 因 此 ， 本 市 
我 们 集中 于 Ext3 所 提供 的 新 特点 一 一 “日 志 ”。 


日 志文 件 系统 


随 着 磁盘 变 得 越 来 越 大 ， 传 统 Unix 文件 系统 ( 像 Ext2) 的 一 种 设计 选择 证 明 是 不 相称 
的 。 从 第 十 四 章 我 们 已 经 知道 , 对 文件 系统 块 的 更 新 可 能 在 内 存 保留 相当 长 的 时 间 后 才 
刷新 到 磁盘 。 因此, 像 断 电 故 障 或 系统 崩溃 这 样 不 可 预测 的 事件 可 能 导致 文件 系统 处 于 
不 一 致 状态 。 为 了 克服 这 个 问题 , 每 个 传统 的 Unix 文件 系统 在 安装 之 前 都 要 进行 检查 ， 
如 采 它 没有 被 正常 印 载 ,那么 ,就 有 一 个 特定 的 程序 执行 彻底 、 耗 时 的 检查 ,并 修正 磁 
盘 上 文件 系统 的 所 有 数据 结构 。 


例如 , Ext2 文 件 系 统 的 状态 存放 在 磁盘 上 超级 块 的 s_mount_state 字 段 中 。 由 启动 脚本 
调用 e2fsck 实 用 程序 检查 存放 在 这 个 字段 中 的 值 , 如 果 它 不 等 于 EXT2_VALID_FS, 说 
明文 件 系统 没有 正常 卸载 ， 因 此 ，e2fsck 开始 检查 文件 系统 的 所 有 磁盘 数据 结构 。 


显然 ， 检 查 文件 系统 一 致 性 所 化 费 的 时 间 主 要 取决 于 要 检查 的 文件 数 和 目录 数 ， 因 此 ， 
它 也 取决 于 磁盘 的 大 小 。 如 今 ， 随 着 文件 系统 达到 几 百 个 GB ， 一 次 一 致 性 检查 就 可 能 
花费 数 个 小 时 。 造 成 的 停机 时 间 对 任何 生产 环境 和 高 可 用 服务 器 都 是 无 法 接受 的 。 


日 志文 件 系统 的 目标 就 是 避免 对 整个 文件 系统 进行 耗 时 的 一 致 性 检查 ,这 是 通过 查看 一 
个 特殊 的 磁盘 区 达到 的 ， 因 为 这 种 磁盘 区 包含 所 谓 日 志 (journal) 的 最 新 磁盘 写 操 作 。 
系统 出 现 故 障 后 ， 安 装 日 志文 件 系 统 只 不 过 是 几 秒 钟 的 事 。 


Ext3 日 志文 件 系统 

Ext3 日 志 所 隐 含 的 思想 就 是 对 文件 系统 进行 的 任何 高 级 修改 都 分 两 步 进行 。 首先 , 把 待 
写 块 的 一 个 副本 存放 在 日 志 中 ; 其次, 当 发 往日 志 的 IO 数据 传送 完成 时 ( 简 而 言 之 , 把 
数据 提交 到 日 志 ), 块 就 被 写 和 文件 系统 。 当 发 往 文件 系统 的 IO 数据 传送 终止 时 (把 数 
据 提 交 给 文件 系统 ) ， 日 志 中 的 块 副 本 就 被 丢弃 。 


当 从 系统 故障 中 恢复 时 ，e2fsck 程 序 区 分 下 列 两 种 情况 : 
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提交 到 日 志 之 前 系统 故障 发 生 。 与 高 级 修改 相关 的 块 副 本 或 者 从 日 志 中 丢失 , 或 者 是 不 
完整 的 ， 在 这 两 种 情况 下 ，e2fsck 都 名 略 它们 。 


提交 到 日 志 之 后 系统 故障 发 生 。 块 的 副本 是 有 效 的 ， 且 e2fsck 把 它们 写 入 文件 系统 。 


在 第 一 种 情况 下 ,对 文件 系统 的 商 级 修改 被 丢失 , 但 文件 系统 的 状态 还 是 一 致 的 。 在 第 
二 种 情况 下 ，e2fsck 应 用 于 整个 高 级 修改 ， 因 此 ,修正 由 于 把 未 完成 的 WO 数据 传送 到 
文件 系统 而 造成 的 任何 不 一 致 。 


不 要 对 日 志文 件 系统 有 太 多 的 期 望 。 它 只 能 确保 系统 调用 级 的 一 致 性 。 例 如 ,， 当 你 正在 
发 出 几 个 write() 系 统 调用 拷贝 一 个 大 型 文件 时 发 生 了 系统 故障 , 这 将 会 使 拷贝 操作 中 
断 ， 因 此 ， 复 制 的 文件 就 会 比 原 来 的 文件 短 。 


因此 , 日志 文件 系 统 通常 不 把 所 有 的 块 都 拷贝 到 日 志 中 。 事 实 上 , 每 个 文件 系统 都 由 两 
种 块 组 成 : 包含 所 谓 元 数据 (metadata) 的 块 和 包含 普通 数据 的 块 。 在 Ext2 和 Ext3 的 
情形 中 , 有 六 种 元 数据 : 超级 块 、 块 组 描述 符 、 索 引 节 点 、 用 于 间接 寻 址 的 块 (间接 块 )、 
数据 位 图 块 和 索引 市 点 位 图 块 。 其 他 的 文件 系统 可 能 使 用 不 同 的 元 数据 。 


很 多 日 志文 件 系 统 (如 SGI 的 XFS 以 及 IBM 的 JFS) 都 限定 自己 把 影响 元 数据 的 操作 记 
和 人 日 志 。 事 实 上 ， 元 数据 的 日 志 记 录 足 以 恢复 磁盘 文件 系统 数据 结构 的 一 致 性 。 然 而 ， 
因为 文件 的 数据 块 不 记 入 日 志 ， 因 此 就 无 法 防止 系统 故障 造成 的 文件 内 容 的 损坏 。 


不 过 ,可 以 把 Ext3 文 件 系统 配置 为 把 影响 文件 系统 元 数据 的 操作 和 影响 文件 数据 块 的 操 
作 都 记 和 日志。 因为 把 每 种 写 操 作 都 记 和 日志 会 导致 极 大 的 性 能 损失 , 因此 ，Ext3 让 系 
统管 理 员 决定 应 当 把 什么 记 入 日 志 ; 具体 来 说 ， 它 提供 三 种 不 同 的 日 志 模 式 : 


日 志 (Journal) 
文件 系统 所 有 数据 和 元 数据 的 改变 都 被 记 入 日 志 。 这 种 模式 减少 了 丢失 每 个 文件 修 
改 的 机 会 , 但 是 它 需 要 很 多 额外 的 磁盘 访问 。 例 如， 当 一 个 新 文件 被 创建 时 , 它 的 
所 有 数据 块 都 必须 复制 一 份 作为 日 志 记 录 。 这 是 最 安全 和 最 慢 的 Ext3 日 志 模 式 。 

声 定 (Ordered ) 
只 有 对 文件 系统 元 数据 的 改变 才 被 记 入 日 志 。 然而, Ext3 文 件 系统 把 元 数据 和 相关 
的 数据 块 进行 分 组 , 以 便 在 元 数据 之 前 把 数据 块 写 和 磁盘。 这样, 就 可 以 减少 文件 
内 数据 损坏 的 机 会 ; 例如 , 确保 增 大 文件 的 任何 写 访问 都 完全 受 日 志 的 保护 。 这 是 
缺 省 的 Ext3 日 志 模 式 。 

写 (Writeback ) 
只 有 对 文件 系统 元 数据 的 改变 才 被 记 入 日 志 ; 这 是 在 其 他 日 志文 件 系统 中 发 现 的 方 
法 ， 也 是 最 快 的 模式 。 
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Ext3 文件 系统 的 日 志 模 式 由 mounti 系统 命令 的 一 个 选项 来 指定 。 例 如 ,为 了 在 Wjdisk 安 


装点 对 存放 在 /dev/sda2 分 区 上 的 Ext3 文件 系统 以 “ 写 回 ”模式 进行 安装 ， 系 统管 理 员 
可 以 键入 如 下 命令 : 


# mount -t ext3 -o data=writeback /dev/sda2 /jdisk 


日 志 块 设备 层 
Ext3 日 志 通 常 存放 在 名 为 .journal 的 隐藏 文件 中 ， 该 文件 位 于 文件 系统 的 根 目 录 。 


Ext3 文 件 系 统 本 身 不 处 理 日 志 , 而 是 利用 所 谓 日 志 块 设备 (Journaling Block Device ,JBD) 
的 通用 内 核 层 。 现 在 ， 只 有 Ext3 使 用 JDB 层 ， 而 其 他 文件 系统 可 能 在 将 来 才 使 用 它 。 


JDB 层 是 相当 复杂 的 软件 部 分 。Ext3 文 件 系 统 调用 JDB 例 程 , 以 确保 在 系统 万 一 出 现 故 
障 时 它 的 后 续 操作 不 会 损坏 磁盘 数据 结构 。 然 而 , IDB 典型 地 使 用 同一 磁盘 来 把 Ext3 文 
件 系统 所 做 的 改变 记 入 日 志 , 因此 , 它 与 Ext3 一 样 易 受 系统 故障 的 影响 。 换言之 , JDB 
也 必须 保护 自己 免 受 任何 系统 故障 引起 的 日 志 损 环 。 


因此 ，Ext3 与 JDB 之 间 的 交互 本 质 上 基于 三 个 基本 单元 : 


日 志 记 录 
描述 日 志文 件 系统 一 个 磁盘 块 的 一 次 更 新 。 

原子 磺 作 处理 
包括 文件 系统 的 一 次 高 级 修改 对 应 的 日 志 记 录 ; 一 般 来 说 , 修改 文件 系统 的 每 个 系 
统 调用 都 引起 一 次 单独 的 原子 操作 处 理 。 


笋 务 
包括 几 个 原子 操作 处 理 ， 同 时 ， 原 子 操作 处 理 的 日 志 记 录 对 e2fsck 标记 为 有 效 。 


日 志 记 录 

日 志 记 录 (log record) 本 质 上 是 文件 系统 将 要 发 出 的 一 个 低级 操作 的 描述 。 在 某 些 日 
志文 件 系 统 中 ,日 志 记 录 只 包括 操作 所 修改 的 字 节 范围 及 字 节 在 文件 系统 中 的 起 始 位 置 。 
然而 , JDB 层 使 用 的 日 志 记 录 由 低级 操作 所 修改 的 整个 缓冲 区 组 成 。 这 种 方式 可 能 浪费 
很 多 日 志 空 间 ( 例 如， 当 低 级 操作 仅仅 改变 位 图 的 一 个 位 时 ), 但 是 , 它 还 是 相当 快 的 ， 
因为 JBD 层 直 接 对 缓冲 区 和 缓冲 区 首部 进行 操作 。 


因此 , 日 志 记 录 在 日 志 内 部 表示 为 普通 的 数据 块 (或 元 数据 )。 但 是 ， 每 个 这 样 的 块 都 
是 与 类 型 为 journal_block_tag_t 的 小 标签 相关 联 的， 这 种 小 标签 存放 块 在 文件 系统 
中 的 逻辑 块 号 和 几 个 状态 标志 。 
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随后 , 只 要 一 个 缓冲 区 得 到 JBD 的 关注 , 或 者 因为 它 属 于 日 志 记 录 , 或 者 因为 它 是 一 个 
数据 块 , 该 数据 块 应 当 在 相应 的 元 数据 之 前 刷新 到 磁盘 (处 于 “预定 ”模式 )， 那么 ,内 
核 把 journal_heaq 数 据 结构 加 入 到 缓冲 区 首部 。 在 这 种 情况 下 ,缓冲 区 首部 的 b_private 
字段 存放 journal_head 数据 结构 的 地 址 ， 并 把 BH_JBD 标 志 置 位 (参见 第 十 五 章 “ 块 
缓冲 区 和 缓冲 区 首部 ”一 市 )。 


原子 操作 处 理 
修改 文件 系统 的 任 一 系统 调用 通常 都 被 划分 为 操纵 磁盘 数据 结构 的 一 系列 低级 操作 。 


例如 , 假定 Ext3 必 须 满 足 用 户 把 一 个 数据 块 追 加 到 普通 文件 的 请 求 。 文件 系统 层 必 须 确 
定 文 件 的 最 后 一 个 块 ， 定 位 文件 系统 中 的 一 个 空闲 块 ， 更 新 适当 块 组 内 的 数据 块 位 图 ， 
存放 新 块 的 逻辑 块 号 在 文件 的 索引 节点 或 间接 寻 址 块 中 , 写 新 块 的 内 容 , 并 在 最 后 更 新 
索引 节点 的 几 个 字段 。 你 可 以 看 到 , 追加 操作 转换 为 对 文件 系统 数据 块 和 元 数据 块 很 多 
低级 的 操作 。 


现在 , 仅仅 想象 一 下 ,如 果 在 追加 操作 的 中 间 一 些 低级 操作 已 经 执行 ， 另 一 些 还 没有 执 
行 , 而 系统 出 现 了 故障 会 发 生 什么 事情 。 当然, 对 于 影响 两 个 或 多 个 文件 的 高 级 操作 ( 例 
如 ， 把 文件 从 一 个 目录 移 到 另 一 个 目录 )， 情 况 会 更 精 。 


为 了 防止 数据 损坏 , Ext3 文 件 系 统 必须 确保 每 个 系统 调用 以 原子 的 方式 进行 处 理 。 原子 
操作 处 理 (atomic operation handle) 是 对 磁盘 数据 结构 的 一 组 低级 操作 ， 这 组 低级 操 
作对 应 一 个 单独 的 高 级 操作 。 当 从 系统 故障 中 恢复 时 , 文件 系统 确保 要 么 整个 高 级 操作 
起 作用 ， 要 么 没有 一 个 低级 操作 起 作用 。 


任何 原子 操作 处 理 都 用 类 型 为 handle_t 的 描述 符 来 表示 ,为 了 开始 一 个 原子 操作 , Ext3 
文件 系统 调用 journal_start ()JBD 消 数 , 该 函数 在 必要 时 分 配 一 个 新 的 原子 操作 处 理 
并 把 它 插入 到 当前 的 事务 中 ( 见 下 一 市 )。 因 为 对 磁盘 的 任何 低级 操作 都 可 能 挂 起 进程 ， 
因此 ， 话 动 原子 操作 处 理 的 地 址 存放 在 进程 描述 符 的 journal_info 字 段 中 。 为 了 通知 
原子 操作 已 经 完成 ，Ext3 文件 系统 调用 journal_stop () 函数 。 


事务 


出 于 效率 的 原因 , JBD 层 对 日 志 的 处 理 采 用 分 组 的 方法 , 即 把 属于 几 个 原子 操作 处 理 的 
日 志 记 录 分 组 放 在 一 个 单独 的 事务 (transaction) 中 。 此 外 ， 与 一 个 处 理 相 关 的 所 有 日 
志 记 录 都 必须 包含 在 同一 个 事务 中 。 


一 个 事务 的 所 有 日 志 记 录 存 放 在 日 志 的 连续 块 中 。JBD 层 把 每 个 事务 作为 整体 来 处 理 。 
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例如 ,只 有 当 包 含 在 一 个 事务 的 日 志 记录 中 的 所 有 数据 都 提交 给 文件 系统 时 才 回 收 该 事 
务 所 使 用 的 块 。 


事务 一 旦 被 创建 ， 它 就 能 接受 新 处 理 的 日 志 记录 。 当 下 列 情况 之 一 发 生 时 ， 事 务 就 停止 
接受 新 处 理 


。 ”固定 的 时 间 已 经 过 去 ， 典 型 情况 下 为 5s。 
。 “日 志 中 没有 空闲 块 留 给 新 处 理 


事务 是 由 类 型 为 transaction_t 的 描述 符 来 表示 的 。 其 最 重要 的 字段 为 t_state，, 该 字段 
摘 述 事务 的 当前 状态 。 


从 本 质 上 说 ， 事 务 可 以 是 : 
完成 的 
包含 在 事务 中 的 所 有 日 志 记 录 都 已 经 从 物理 上 写 人 日 志 。 当 从 系统 故障 中 恢复 时 ， 


e2fsck 考虑 日 志 中 每 个 完成 的 事务 ， 并 把 相应 的 块 写 入 文件 系统 。 在 这 种 情况 下 ， 
t_state 字 7 段 存放 值 T_FINISHED， 


包含 在 事务 中 的 日 志 记 录 至 少 还 有 一 个 没有 从 物理 上 写 入 日 志 , 或 者 新 的 日 志 记 录 
还 正在 追加 到 事务 中 。 在 系统 故障 的 情况 下 , 存放 在 日 志 中 的 事务 映像 很 可 能 不 是 
最 新 的 。 因 此 ， 当 从 系统 故障 中 恢复 时 ，e2fsck 不 信任 日 志 中 未 完成 的 事务 , 并 跳 
过 它们 。 在 这 种 情况 下 ，i_state 存放 下 列 值 之 一 : 
T_RUNNING 
还 在 接受 新 的 原子 操作 处 理 。 
T_LOCKED 
不 接受 新 的 原子 操作 处 理 ， 但 其 中 的 一 些 还 没有 完成 。 
T_FLUSH 
所 有 的 原子 操作 处 理 都 已 完成 ， 但 一 些 日 志 记 录 还 正在 写 人 日 志 。 
T_COMMIT 
原子 操作 处 理 的 所 有 日 志 记录 都 已 经 写 人 磁盘 ， 但 在 日 志 中 ， 事 务 仍然 被 标 
记 为 完成 。 


在 任何 时 刻 , 日 志 可 能 包含 多 个 事务 , 但 其 中 只 有 一 个 处 于 T_RUNNING 状 态 , 即 它 是 活 
动 事务 (active transaction)。 所 谓 活 动 事务 就 是 正在 接受 由 Ext3 文件 系统 发 出 的 新 原 
子 操作 处 理 的 请 求 。 
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日 志 中 的 几 个 事务 可 能 是 未 完成 的 ， 因 为 包含 相关 日 志 记 录 的 缓冲 区 还 没有 写 入 日 志 。 


如 果 事 务 完成 , 说 明 所 有 日 志 记 录 已 被 写 和 日志, 但 是 一 部 分 相应 的 缓冲 区 还 没有 写 入 
文件 系统 。 只 有 当 JDB 层 确认 日 志 记录 描述 的 所 有 缓冲 区 都 已 成 功 写 人 Ext3 文件 系统 
时 ， 一 个 完成 的 事务 才能 从 日 志 中 删除 。 


日 志 如 何 工作 


让 我 们 用 一 个 例子 来 试图 解释 日 志 如 何 工作 :Ext3 文 件 系统 层 接 受 向 普通 文件 写 一 些 数 
据 块 的 请 求 。 


你 可 能 很 容易 猜 到 , 我 们 不 打算 详细 的 述 Ext3 文 件 系统 层 和 JDB 层 的 每 个 单独 操作 。 那 
将 会 涉及 太 多 问题 ! 但 是 ， 我 们 描述 本 质 的 操作 : 


]. write() 系 统 调用 服务 例 程 触发 与 Ext3 普通 文件 相关 的 文件 对 象 的 write 方法 。 
对 于 Ext3 来 说 ， 这 个 方法 是 由 generic_file_write() 国 数 实 现 的 ， 这 已 在 第 十 
六 章 “ 写 入 文件 ”一 布 进 行 了 描述 。 

2. generic file write() 水 数 几 次 调用 aGdress_space 对 象 的 prepare write 方 法 , 写 方 
法 涉及 的 每 个 数据 页 都 调用 一 次 。 对 ExG 来 说 ， 这 个 方法 是 由 ext3_prepare_write() 
困 数 实现 的 。 

3， ext3_prepare_write() 国 数 调 用 journal_starkt() JBD 轩 数 开 始 一 个 新 的 原子 
操作 。 这 个 原子 操作 处 理 被 加 到 活动 事务 中 。 实际 上 , 原子 操作 处 理 是 在 第 一 次 调 
用 journal_start () 函数 时 创建 的 。 后 续 的 调用 确认 进程 描述 符 的 journal_info 
字段 已 经 被 置 位 ， 并 使 用 这 个 处 理 。 


4. ”ext3_prepare_write() 毅 数 调 用 第 十 六 章 已 描述 过 的 block_prepare_write() 国 数 ， 
传递 给 它 的 参数 为 ext3_get_block () 国 数 的 地 址 。 回 想 一 下 ,block prepare_write () 
负责 准备 文件 页 的 缓冲 区 和 缓冲 区 首部 。 


5.  ” 当 内 核 必 须 确定 Ext3 文 件 系统 的 逻辑 块 号 时 , 就 执行 ext3_get_block() 函 数 。 这 

个 函数 实际 上 类 似 于 ext2_get_plock(), 后 者 在 前 面 “ 分 配 数据 块 ” 一 节 已 经 描 

述 。 但 是 ， 有 一 个 主要 的 差异 在 于 Ext3 文件 系统 调用 JDB 层 的 函 来 确保 低级 操作 

记 入 日 志 : 

。 在 对 Ext3 文件 系统 的 元 数据 块 发 出 低级 写 操作 之 前 ， 该 函数 调用 
journal_get_write_access ()。 后 一 个 国 数 主要 把 元 数据 缓冲 区 加 入 到 活动 
事务 的 链表 中 。 但是, 它 也 必须 检查 元 数据 是 否 包 含 在 日 志 的 一 个 较 老 的 未 完 
成 的 事务 中 ;在 这 种 情况 下 , 它 把 缓冲 区 复制 一 份 以 确保 老 的 事务 以 老 的 内 容 


提交 。 
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。 ”在 更 新 元 数据 块 所 在 的 缓冲 区 之 后 ,Ext3 文 件 系 统 调用 journal_qirty_metaqGata () 
把 元 数据 缓 促 区 移 到 活动 事务 的 适当 脏 链 表 中 ， 并 在 日 志 中 记录 这 一 操作 。 


注意 ,由 JDB 层 处 理 的 元 数据 缓冲 区 通常 并 不 包含 在 索引 节点 的 缓冲 区 的 胜 链表 中 ， 
因此 ， 这 些 缓冲 区 并 不 由 第 十 五 章 描述 的 正常 磁盘 高 速 缓 存 的 刷新 机 制 写 入 磁盘 。 


如 果 Ext3 文件 系统 已 经 以 “日 志 ” 模 式 安装 ， 则 ext3_prepare_write() 图 数 在 
写 操 作 触 及 的 每 个 缓冲 区 上 也 调用 journal_get_write_access () 。 


控制 权 回 到 generic_file_write() 函 数 , 该 函数 用 存放 在 用 户 态 地 址 空间 的 数据 
更 新 页 ， 并 调用 address_space 对 象 的 commit_write 方 法 。 对 于 Ext3， 银 数 如 
何 实现 这 个 方法 取决 于 Ext3 文件 系统 的 安装 方式 : 


。 如 条 Ext3 文件 系统 已 经 以 “日 志 ” 模 式 安装 ， 那 么 commit_write 方 法 是 由 
ext3_journalledq_commit_writef() 国 数 实现 的 , 它 对 页 中 的 每 个 数据 (不 是 
元 数据 ) 缓 促 区 调用 journal_qdirty_metadata()。 这样 , 缓冲 区 就 包含 在 活 
动 事务 的 适当 脏 链 表 中 , 但 不 包含 在 拥有 者 索引 布点 的 脏 链 表 中 ， 此 外 ,相应 
的 日 志 记 录 写 和 人 日志。 最 后 ，ext3_ journallea_commit_write() 调 用 
journal_stop 通知 JBD 户 原 子 操作 处 理 已 关闭 。 


。 如果 Ext3 文件 系统 已 经 以 “预定 ”模式 安装 ， 那 么 commit_write 方 法 是 由 
ext3_oraereq_cormit_write() 图 数 实 现 的 , 它 对 页 中 的 每 个 数据 缓冲 区 调用 
journal_dqirty_dqata() 国 数 以 把 缓冲 区 插入 到 医 动 事 务 的 适当 链表 中 。JDB 层 
确保 在 事务 中 的 元 数据 缓冲 区 写 人 之 前 这 个 链表 中 的 所 有 缓冲 区 写 人 磁盘 。 没 
有 日 志 记 录 写 人 有 日志。 然后 ,ext3_oraereq_cormit_write() 国 数 执行 第 十 五 
章 描述 的 常规 generic_commit_write() 消 数 ， 该 函数 把 数据 缓 串 区 插入 拥有 
者 索引 节点 的 脏 缓 促 区 链表 中 。 最 后 ，ext3_ordereqd_commit_write() 调 用 
journal_stop() 通 知 JBD 层 原子 操作 处 理 已 关闭 。 


。 ”如 采 Ext3 文件 系统 已 经 以 “ 写 回 ”模式 安装 ， 那 么 commit_write 方法 是 由 
ext3_writeback_commit_write() 明 数 实现 的 ， 它 执行 第 十 五 章 描述 的 常规 
generic_commit_write() 函 数 ,该 男 数 把 数据 缓冲 区 插入 拥有 者 索引 市 点 的 胜 
绥 促 区 链表 中 ,然后 ,ext3_ writeback_cormit_write() 调 用 journal_stop () 
通知 JBD 层 原 子 操作 处 理 已 关闭 。 


write() 系 统 调用 的 服务 例 程 到 此 结束 。 但是, JDB 层 还 没有 完成 它 的 工作 , 终于， 
当 事 务 的 所 有 日 志 记 录 都 物理 地 写 和 日志 时 ， 我 们 的 事务 才 完 成 。 然 后 ， 执 行 
Journal_commit _ transaction )。 

如 果 Ext3 文件 系统 已 经 以 “预定 ”模式 安装 ， 则 journal_corrmit_ transactiont) 国 
数 为 事务 链表 包含 的 所 有 数据 缓冲 区 激活 IO 数据 传送 ， 并 等 待 直到 数据 传送 终止 。 
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10. Jjournal_commit_ transaction() 图 数 为 包含 在 事务 中 的 所 有 元 数据 缓冲 区 激活 
LO 数据 传送 〈 如 果 Ext3 以 “日 志 ” 模 式 安装 ， 则 也 为 所 有 的 数据 缓 串 区 激活 IO 
数据 传送 )。 


11. 内 核 周 期 性 地 为 日 志 中 每 个 完成 的 事务 激活 检查 点 活动 。 检 查 点 主要 验证 由 
journal_commit_transaction() 触 发 的 IO 数据 传送 是 否 已 经 成 功 结束 .如 果 是 ， 
则 从 日 志 中 删除 事务 。 


当然 ， 除 非 发 生 系 统 故 障 ， 否 则 日 志 中 的 日 志 记 录 根 本 就 没有 什么 积极 作用 。 事 实 上 ， 
只 有 在 系统 发 生 故 障 时 ，e2fsck 实 用 程序 才 扫 描 存 放 在 文件 系统 中 的 日 志 ,， 并 重新 安排 
完成 的 事务 中 的 日 志 记 录 所 描述 的 所 有 写 操作 。 
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进程 通 





本 童 介绍 用 户 态 的 进程 之 间 如 何 进 行 同 步 和 交换 数据 ,在 第 五 章 我 们 已 经 介绍 了 很 多 同 
步 的 主题 , 但 是 参与 的 对 象 是 内 核 控制 路 径 ， 而 不 是 用 户 态 程序 。 我 们 在 详细 讨论 了 
0 管理 和 文件 系统 之 后 , 就 可 以 继续 讨论 用 户 态 进程 的 同步 。 这 些 进程 都 要 依靠 内 核 来 
实现 彼此 之 间 的 同步 以 及 通信 。 


正如 我 们 在 第 十 二 章 “Linux 文件 加 锁 ” 一 节 已 经 看 到 的 那样 ， 通 过 创建 一 个 文件 〈 可 
能 是 空 文件 ) 并 使 用 适当 的 VFS 系 统 调用 对 该 文件 加 锁 和 解锁 就 可 以 在 用 户 态 进程 之 间 
实现 某 种 同步 ,通过 把 数据 存放 在 使 用 锁 保 护 的 临时 文件 中 就 可 以 在 进程 之 间 实 现 类 似 
的 数据 共享 , 然而 这 种 方法 的 代价 很 高 , 因为 它 需 要 访问 磁盘 文件 系统 。 出 于 这 个 原因 ， 
所 有 的 Unix 内 核 都 包含 一 组 系统 调用 ,这 些 系 统 调用 不 用 与 文件 系统 打交道 就 可 以 支持 
进程 通信 ， 而 且 , 已 经 开发 了 几 个 封装 函数 并 将 其 加 入 到 适当 的 库 来 加 速 进程 对 内 核发 
出 同步 请 求 。 


通 贡 , 应 用 程序 员 有 使 用 不 同 通信 机 制 的 各 种 需求 。 这 里 列 出 Unix 系 统 提 供 的 进程 间 通 
信 的 基本 机 制 : 


管 坦 和 FIFO (命名 管道 ) 
最 适合 在 进程 之 间 实 现 生产 者 /消费 者 的 交互 。 有 些 进程 向 管道 中 写 信 数据, 而 另 
外 一 些 进程 则 从 管道 中 读 出 数据 。 这 将 在 “管道 ”与 “FIFO” 一 节 讨 论 。 
信息 彼 
正名 思 义 ,这 是 在 第 五 章 中 的 “信号 量 ”一 节 讨 论 过 的 内 核 信号 量 的 用 户 态 版 本 。 
这 将 在 “System V IPC” 一 节 讨 论 。 
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许 进 程 在 预定 义 的 消息 队列 中 读 和 写 消 2 (小 块 数据 ) 。Linux ， 
提供 两 种 不 同 的 消息 版 本 : System V IPC 消 息 ( “System V IJPC” 一 节 ) 征 
POSIX 消息 一 市 (参见 “POSIX 消息 队列 ” 0 
夫 亨 内存 区 


允许 进程 通过 共享 内 存 块 来 交换 信息 。 在 必须 共享 大 量 数 据 的 应 用 中 ,这 可 能 是 最 
高 效 的 进程 通信 形式 。 这 将 在 “System V IPC” 一 市 讨论 。 





安 换 数据 。 套 接 字 还 可 以 用 作 相同 主 机 上 的 进程 


之 间 的 通信 工具 ， 例如 ， X Window 系统 图 形 接口 就 是 使 用 套 按 字 来 允许 客户 演 布 
X 服务 器 交换 数据 的 。 


管道 
管道 (pipe) 是 所 有 Unix 都 愿意 提供 的 一 种 进程 间 通 信 机 制 。 管 道 是 进程 之 间 的 一 个 间 


同 数 据 流 : 一 个 进程 写 入 管 遵 的 所 有 数据 都 由 内 核定 向 到 另 一 个 进程 , 另 一 个 进程 由 此 
就 可 以 从 管道 中 该 取 数 据 。 


在 Unix 的 命令 shel] 中 ,可 以 使 用 “1” 操作 符 来 创建 管道 。 例 如, 下面 的 语句 通知 shell 


创建 两 个 进程 ， 并 使 用 一 个 管道 把 这 两 个 进程 连接 在 一 起 
+ (3% 一个 进程 (执行 more 程 


$ ls | more 
也 逢 一 个 进程 (执行 必 程 序 ) 的 标准 给 
) 从 这 个 管道 中 读 取 输入 。 


注意 ， 执 行 下 面 这 两 条 命令 也 可 以 得 到 相同 的 结果 : 





$s ls > temp 
$ more < temp 


第 一 个 命令 把 is 的 输出 重 定向 到 一 个 普通 文件 中 ， 接 下 来 ， 第 二 个 命令 强制 more 从 这 
个 普通 文件 中 读 取 输入 。 当 然 ， 通 常 使 用 管道 比 使 用 临时 文件 更 方便 ， 这 是 因为 : 


。 “shell 语句 比 较 短 ， 也 比较 简单 。 
。 ”没有 必要 创建 将 来 还 必须 删除 的 临时 普通 文件 。 
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使 用 管道 
管道 打开 的 文件 ,但 在 已 安装 的 文件 系统 中 没有 相应 的 映像 。 可 以 使 用 pipe () 


系统 调用 来 创建 一 个 新 管道 , 这 个 系统 调用 返回 -对 六 体 措 沁 符 , 然后 进程 通过 fork () 
把 这 两 个 描述 符 传递 给 它 的 子 进程 ， 由 此 与 子 进程 共享 管道 。 进 程 可 以 在 read() 系统 


调用 中 使 用 第 一 个 文件 描述 符 从 管道 中 读 取 数 据 , 同样 也 可 以 在 write() 系 统 调用 中 使 
用 第 二 个 文件 搓 述 符 向 管道 中 写 和 人 数据。 


POSIX 只 定 》 道 ， 因 此 即使 pipe 






据 流 ， 那么 进程 必 需 通过 两 次 调用 pipe ) 来 使 用 两 个 不 同 的 管道 。 


有 些 Unix 系统 ， 例 如 System V Releas 4， 实 现 了 全 双 工 的 管道 。 在 全 双 工 管道 中 ， 允 
文人 信也 可 以 被 该 家， 有 商 个 息 通 道 。Linux Linux 采 用 


之 前 不 必 把 另外 一 个 


让 我 们 回顾 一 下 前 面 的 那个 例子 。 当 shell 命令 对 1s | more 语 名 进行 解释 时 ， 实 际 上 
要 执行 以 下 操作 





1. ”调用 pipe() 系 统 调 用 ， 让 我 们 假设 pipe() 返 回 文件 描述 符 3 (管道 的 读 通 道 ) 和 
4 (管道 的 写 通 道 )。 

2. ”两 次 调用 fork () 系统 调用 。 

3. ”两 次 调用 close () 系统 调用 来 释放 文件 描述 符 3 和 4。 

第 一 个 子 进程 必须 执行 is 程序 ， 它 执行 以 下 操作 : 

1. 调用 aup2(4,1) 把 文件 摘 述 符 4 拷 贝 到 文件 摘 述 符 1。 从 现在 开始 ,文件 摘 述 符 1 
就 代表 该 管道 的 写 通道 。 

2. ”两 次 调用 close() 系 统 调用 来 释放 文件 描述 符 3 和 4。 


3. ”调用 execve () 系 统 调用 来 执行 is 程序 (参见 第 二 十 章 “exec 图 数 ”一 节 ) 。 缺 省 
情况 下 , 这 个 程序 要 把 自己 的 输出 写 到 文件 描述 符 为 1 的 那个 文件 (标准 输出 ) 中 ， 
也 就 是 说 ， 写 入 管道 中 。 


第 二 个 子 进程 必须 执行 more 程序 ， 因 此 ， 该 进程 执行 以 下 操作 : 


1. 调用 aup2(3,0) 把 文件 描述 符 3 拷贝 到 文件 描述 符 0。 从 现在 开始 ， 文 件 描述 符 0 
就 代表 管道 的 读 通 道 。 


进程 通信 769 


2. 两 次 调用 close() 系 统 调用 来 释放 文件 摘 述 符 3 和 4。 


3. 调用 execve() 系 统 调用 来 执行 more 程 序 。 缺 省 情况 下 , 这 个 程序 要 从 文件 描述 符 
为 0 的 那个 文件 (标准 输入 ) 中 读 取 输入 ， 也 就 是 说 ， 从 管道 中 读 取 输入 。 


在 这 个 简单 的 例子 中 ,管道 完全 被 两 个 进程 使 用 。 但是， 由 于 管道 的 这 种 实现 方式 ， 一 
个 管道 可 以 供 任意 个 进程 使 用 ( 注 1)。 显然 , 如 果 两 个 或 者 更 多 个 进程 对 同一 个 管道 进 
行 读 写 , 那么 这 些 进程 必须 使 用 文件 加 锁 机 制 (参见 第 十 二 章 中 的 “Linux 文 件 加 锁 ” 一 
节 ) 或 者 IPC 信 号 量 机 制 (参见 本 章 后 面 的 “IPC 信号 量 ” 一 节 ) 对 自己 的 访问 进行 显 
式 的 同步 。 


除了 pipe() 系统 调用 之 外 ， 很 多 Unix 系统 都 提供 了 两 个 名 为 popen () 和 pclose() 的 
i 只 要 使 用 popen () 函数 创建 一 

， 就 可 以 使 用 包含 在 C 国 数 针 前 数 (fprintf()，fscanf() 等 等 ) 
0 


在 Linux 中 ，popen() 和 pclose() 都 包含 在 C 国 数 库 中 。popen () 国 数 接收 两 个 参数 : 
可 执行 文件 的 路 径 名 filename 和 定义 数据 传输 方向 的 字符 串 type。 该 国 数 返 回 一 个 指 
向 FILE 数据 结构 的 指针 。popen () 国 数 实际 上 执行 以 下 操作 





1. 使 用 pipe() 系 统 调 用 创建 一 个 新 管道 。 
2. 创建 一 个 新 进程 ， 该 进程 又 执行 以 下 操作 : 


a 如 果 type 是 r， 就 把 与 管道 的 写 通 道 相关 的 文件 描述 符 拷贝 到 文件 描述 符 1 
(标准 输出 )， 否则 ,如 果 type 是 w, 就 把 与 管道 的 读 通 道 相关 的 文件 描述 符 拷 
贝 到 文件 描述 符 0 标准 输入 )。 


b. 关闭 pipe() 返 回 的 文件 描述 符 。 
c， 调用 execve () 系 统 调用 执行 filename 所 指定 的 程序 。 

3. 如 果 type 是 zx， 就 关闭 与 管道 的 写 通道 相关 的 文件 描述 符 ， 否则 , 如 果 type 是 w， 
就 关闭 与 管道 的 读 通 道 相 关 的 文件 描述 符 。 

4. ”返回 FILE 文 件 指 针 所 指向 的 地 址 , 这 个 指针 指向 仍然 打开 的 管道 所 涉及 的 任 一 文 
件 描述 符 。 





注 ] : 由 于 大 部 分 shell 都 提供 只 连接 两 个 进程 的 管道 ,所 以 应 用 程序 要 通过 管道 连接 多 于 两 个 
的 进程 就 必须 使 用 诸如 C 之 类 的 编程 语言 自行 编写 。 
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在 popen() 函 数 被 调用 之 后 , 父 进 程 和 子 进程 就 可 以 通过 管道 交换 信息 : 父 进程 可 以 使 
用 该 函数 所 返回 的 FILE 指针 来 读 (如 果 type 是 r) 写 (如 果 type 是 w) 数据 。 子 进 
程 所 执行 的 程序 分 别 把 数据 写 入 标准 输出 或 从 标准 输入 中 读 取 数据 。 


pclose{) 国 数 接收 popen() 所 返回 的 文件 指针 作为 参数 ， 它 会 简单 地 调用 wait4() 系 
统 调 用 并 等 待 popen() 所 创建 的 进程 结束 。 


管道 数据 结构 

我 们 现在 又 一 次 在 系统 调用 的 层次 考虑 问题 。 只 要 管道 一 被 创建 ， 进 程 就 可 以 使 用 
read() 和 write() 这 两 个 VFS 系统 调用 来 访问 管道 。 因 此 ， 对 于 每 个 管道 来 说 ， 内 核 
都 要 创建 一 个 索引 节点 对 象 和 两 个 文件 对 象 , 一 个 文件 对 象 用 于 读 , 另外 一 个 对 象 用 于 
写 。 当 进程 希望 从 管道 中 读 取 数 据 或 向 管道 中 写 人 数据 时 ,必须 使 用 适当 的 文件 描述 符 。 


当 索 引 贡 点 指 的 是 管道 时 , 其 1 _pipe 字 段 指向 一 个 如 表 19-1 所 示 的 pipe_inode_info 
结构 。 


表 19-1: pipe_inode_info 结构 


类 型 字段 说 明 

struct wait queue * wait 管道 /FIFO 等 待 队列 

Unsigred. Lit nrbufs 包含 待 读数 据 的 缓冲 区 数 
unsigned int curbuf 包含 待 读 数据 的 第 一 个 缓冲 区 的 索引 
struct pipe buffer [16] bufs 管道 缓冲 区 描述 符 数组 

struct page * tmp_page 高 速 缓存 页 框 指针 

unsigned int qi 当前 管道 缓冲 区 读 的 位 置 
unsigned int readers 读 进 程 的 标志 (或 编号 ) 

unsigned int writers 写 进程 的 标志 (或 编号 ) 


unsigned int 


unsigneqd int 
unsigned int 


Struct 
fasync_struct * 
Struct 


fasync_struct * 


walting_writers 


r_counter 


WwW_ Counter 


fasync_readers 


fasync writers 





在 等 待 队 列 中 睡 卢 的 写 进程 的 个 数 
与 readers 类 似 , 但 当 等 待 读 取 
FIFO 的 进程 时 使 用 

与 writers 类 似 , 但 当 等 待 写 人 
FIFO 的 进程 时 使 用 

用 于 通过 信号 进行 的 异步 IO 通知 


用 于 通过 信和 号 进行 的 异步 IO 通知 
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一 一 一 一 


除了 一 个 索引 节点 对 象 和 两 个 文件 对 象 之 外 , 每 个 管道 都 还 有 自己 的 管道 缓冲 区 (pipe 
buffer)。 实 际 上 ， 它 是 一 个 单独 的 页 ， 其 中 包含 了 已 经 写 入 管道 等 待 读 出 的 数据 。 在 
Linux 2.6.10 以 前 ,每 个 管道 一 个 管道 缓冲 区 。 而 2.6.11 内 核 中 ,管道 (与 FIFO) 的 数 
据 缓 冲 区 已 有 很 大 改变 , 每 个 管道 可 以 使 用 16 个 管道 缓冲 区 。 这 个 改变 大 大 增强 了 向 管 
道 写 大 量 数据 的 用 户 态 应 用 的 性 能 。 


pipe_inode_info 数 据 结构 的 bufs 字 7 段 存 放 一 个 具有 16 个 pipe_puffer 对 象 的 数组 ， 
每 个 对 象 代 表 一 个 管道 缓冲 区 。 该 对 象 的 字段 如 表 19-2 所 示 。 


表 19-2，pipe_buffer 对 象 的 字段 


类 型 字段 说 明 

Struct Page * page 管道 缓冲 区 页 框 的 描述 符 地 址 

unsigned int offset 页 框 内 有 效 数 据 的 当前 位 置 

unsigned int len 页 框 内 有 效 数据 的 长 度 

struct ops 管道 缓冲 区 方法 表 的 地 址 (管道 缓冲 区 空 时 为 NULL) 


DIPpec but operatlions™ 
ops 字 段 指 同 管道 缓冲 区 方法 表 anon_pipe_Ibuf_ops, 它 是 一 个 类 型 为 pipe_buf_operations 
的 数据 结构 。 实 际 上 ， 它 有 三 个 方法 : 


map 
在 访问 缓冲 区 数据 之 前 调用 。 它 只 在 管道 缓冲 区 在 高 端 内 存 时 对 管道 缓冲 区 页 框 调 
用 kmap() (参见 第 八 章 “高 端 内 存 页 框 的 内 核 映射 ”一 布 )。 

unmap 
不 再 访问 缓冲 区 数据 时 调用 。 它 对 管道 缓冲 区 页 框 调 用 kunmap()。 

release 
当 释 放 管 道 缓冲 区 时 调用 ,该 方法 实现 了 一 个 单 页 内 存 高 速 缓存 : 释放 的 不 是 存放 
缓冲 区 的 那个 页 框 ， 而 是 由 pipe_inode_info 数据 结构 (如 果 不 是 NULL) 的 
tmp_page 字 段 指 同 的 高 速 缓存 页 框 。 存 放 缓 冲 区 的 页 框 变 成 新 的 高 速 缓 存 页 框 。 


16 个 缓冲 区 可 以 被 看 作 一 个 整体 环形 缓冲 区 : 写 进 程 不 断 疝 这 个 大 缓冲 区 追加 数据 , 而 
读 进 程 则 不 断 移出 数据 。 所 有 管道 缓冲 区 中 当前 写 入 而 等 待 读 出 的 字 节 数 就 是 所 谓 的 管 
道 大 小 。 为 提高 效率 , 仍然 要 读 的 数据 可 以 分 散在 几 个 未 填充 满 的 管道 缓冲 区 内 : 事实 
上 , 在 上 一 个 管道 缓 促 区 没有 足够 空间 存放 新 数据 时 , 每 个 写 操作 都 可 能 会 把 数据 拷贝 
到 一 个 新 的 空 管道 缓 促 区 。 因 此 ， 内 核 必 须 记录 : 
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。 下 一 个 待 读 字 市 所 在 的 管道 缓冲 区 、 页 框 中 的 对 应 偏 移 量 ,该 管道 缓冲 区 的 索引 存 
放 在 pipe_inode_info 数 据 结构 的 curbuf 字 7 段 , 而 偏 移 量 在 相应 bipe_buffer 对 
象 的 offset 字段 。 


。 第 一 个 空 管道 缓冲 区 。 它 可 以 通过 增加 当前 管道 缓冲 区 的 索引 得 到 ( 模 为 16), 并 
存放 在 pipe_inode_info 数 据 结构 的 curbuf 字 7 段 , 而 存放 有 效 数据 的 管道 缓冲 区 
号 存放 在 nrbufs 字段 。 


为 了 避免 对 管道 数据 结构 的 竞争 条 件 ,内 核 使 用 包含 在 索引 市 点 对 象 中 的 ij_sem 信 号 量 。 


pipefs 特殊 文件 系统 
管道 是 作为 一 组 VFS 对 象 来 实现 的 ， 因 此 没有 对 应 的 磁盘 映 象 。 在 Linux 2.6 中 ， 把 这 
些 VFS 对 象 组 织 为 pipe 户 特殊 文件 系统 以 加 速 它们 的 处 理 (参见 第 十 二 章 “ 特 殊 文件 系 
统 一 市 )。 因 为 这 种 文件 系统 在 系统 目录 树 中 没有 安装 点 , 因此 用 户 根本 看 不 到 它 。 但 
是 ， 有 了 pipefs， 管道 完 全 饭 整 合 到 VFS 层 ， 内 核 就 可 以 以 命名 管道 或 FIFO 的 方式 处 
理 它们 ，FIFO 是 以 终端 用 户 认可 的 文件 而 存在 的 (参见 后 面 “FIFO” 一 节 )。 
init_pipe_fs() 尔 数 (一 般 是 在 内 核 初始 化 期 间 执行 ) 注册 pipefs 文件 系统 并 安装 它 
(参见 第 十 二 章 “ 安 装 普通 文件 系统 ”一 节 ): 

struct file_system type pipe_ fs_type:; 

pipe_fs type.name = "pipefs"; 

pipe_fs type.get_ sb = pipefs get_sb; 

pipe_fs.kill_sb = kill_ anon super:; 


register_filesystem(&pipe_fs type): 
pipe mt = do_kern mount {"pipefs", 0, "pipefs", NULL): 


表示 pipefs 根 目录 的 已 安装 文件 系统 对 象 存放 在 pipe_mnt 变量 中 。 


创建 和 撤消 管道 
pipe() 系 统 调用 由 sys_pipe() 国 数 处 理 ， 后 者 又 会 调用 do_ pipe() 函 数 。 为 了 创建 
一 个 新 的 管道 ，do_ pipe() 国 数 执行 以 下 操作 : 
1. 调用 get_pipe_inodqe() 国 数 , 该 函数 为 pipefs 文 件 系统 中 的 管道 分 配 一 个 索引 节 
点 对 象 并 对 其 进行 初始 化 。 具 体 来 说 ， 该 范 数 执行 下 列 操 作 : 
a. 在 pipefs 文件 系统 中 分 配 一 个 新 的 索引 节点 。 
b. 分 配 pijpe_inode_info 数 据 结 构 , 并 把 它 的 地 址 存放 在 索引 节点 的 i_pipe 字 有 段 。 


c. 设置 pipe_inode_info 的 curbuf 和 nrbufs 字 有 段 为 0， 并 将 bufs 数组 中 的 管 
道 缓冲 区 对 象 的 所 有 字段 都 清 0。 
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d.， 把 pipe_inode_info 结 构 的 r_counter 和 w_counter 字段 初始 化 为 1。 
e. 把 pipe_inode_info 结 构 的 readers 和 writers 字段 初 始 化 为 1。 


2. ”为 管道 的 读 通道 分 配 一 个 文件 对 象 和 一 个 文件 描述 符 ， 并 把 这 个 文件 对 象 的 
f_flag 字 段 设 置 成 O_RDONLY , 把 f_op 字 段 初始 化 成 read_pipe_fops 表 的 地 址 。 


3. ”为 管道 的 写 通 道 分 配 一 个 文件 对 象 和 一 个 文件 描述 符 ， 并 把 这 个 文件 对 象 的 flag 
字段 设置 成 O_WRONLY， 把 人 _op 字段 初始 化 成 write_pipe_fops 表 的 地 址 。 


4. ”分 配 一 个 目录 项 对 象 , 并 使 用 它 把 两 个 文件 对 象 和 索引 市 点 对 象 连 接 在 一 起 (参见 
第 十 二 章 的 “通用 文件 模型 ”一 市 )， 然 后， 把 新 的 索引 节 反 插入 pipefs 特殊 文件 
系统 中 。 


5， 把 两 个 文件 描述 符 返 回 给 用 户 态 进 程 。 


发 出 一 个 pipe() 系 统 调用 的 进程 是 最 初 唯一 一 个 可 以 读 写 访问 新 管道 的 进程 。 为 了 表 
示 该 管道 实际 上 既 有 一 个 读 进 程 , 又 有 一 个 写 进程 , 就 要 把 pipe_inode_info 数 据 结 构 
的 readers 和 writers 字 段 都 初始 化 成 1。 通 常 ， 只 要 相应 管道 的 文件 对 象 仍然 由 某 个 
进程 打开 ， 这 两 个 字段 中 的 每 个 字段 就 应 该 都 被 设置 成 1; 如 果 相 应 的 文件 对 象 已 经 被 
释放 ， 那 么 这 个 字段 就 被 设置 成 0， 因 为 不 会 再 有 任何 进程 访问 这 个 管道 。 


创建 一 个 新 进程 并 不 增加 readers 和 writers 字 段 的 值 ， 因 此 这 两 个 值 从 不 超过 1 ( 注 
2)。 但 是 ， 父 进程 仍然 使 用 的 所 有 文件 对 象 的 引用 计数 器 的 值 都 会 增加 (参见 第 三 章 
“clone() 、forkO 及 vforkO 系 统 调用 ”一 节 )。 因 此 ， 即 使 父 进 程 死亡 时 这 个 对 象 都 不 会 
被 释放 ， 管 道 仍 会 一 直 打 开 供 子 进 程 使 用 。 


只 要 进程 对 与 管道 相关 的 一 个 文件 描述 符 调用 close() 系 统 调用 , 内 核 就 对 相应 的 文件 
对 象 执行 fput () 函数 ,这 会 减少 它 的 引用 计数 器 的 值 。 如 果 这 个 计数 器 变 成 0, 那么 该 
函数 就 调用 这 个 文件 操作 的 release 方 法 (参见 第 十 二 章 的 “close(O 系 统 调 用 ”和 “与 
进程 相关 的 文件 ”两 节 )。 


根据 文件 是 与 读 通 道 还 是 与 写 通道 关联 , release 方 法 或 者 由 pipe_read_release() 或 
者 由 Pipe_write_release() 图 数 来 实现 。 这 两 个 国 数 都 调用 Pipe_release{()， 后 者 
把 Pipe_inoqe_info 结 构 的 readqers 字段 或 writers 字 段 设 置 成 0。pipe_release 1{) 
还 要 检查 readers 和 writers 是 否 都 等 于 0。 如果 是 , 就 调用 所 有 管道 缓冲 区 的 release 
方法 ， 向 伙伴 系统 (buddy system) 释放 所 有 管道 缓冲 区 页 杠 ， 此 外 ， 函 数 还 释放 由 
tmp_page 字 段 指 向 的 高 速 缓存 页 框 。 否则 ， readers 或 者 writers 字 段 不 为 0, 销 数 响 
醒 在 管道 的 等 待 队列 上 睡眠 的 任 一 进程 ， 以 使 它们 可 以 识别 管道 状态 的 变化 。 


注 2: 正如 我 们 将 看 到 的 ， 当 与 FIFO 相关 时 ，readers 和 writers 字段 用 作 计 数 器 而 不 是 标志 。 
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从 管道 中 读 取 数据 

希望 从 管道 中 读 取 数据 的 进程 发 出 一 个 read () 系统 调用 ， 为 管道 的 读 端 指定 一 个 文件 
描述 符 。 正 如 在 第 十 二 章 的 “read() 和 write() 系 统 调用 ”一 节 中 描述 的 那样 ， 内 核 最 终 
调用 与 这 个 文件 描述 符 相 关 的 文件 操作 表 中 所 找到 的 read 方 法 。 在 管道 的 情况 下 ,read 
方法 在 read_pipe_fops 表 中 的 表 项 指向 pipe_reada() 国 数 。 


pipe_read() 相 当 复 杂 ， 因 为 POSIX 标准 定义 了 管道 的 读 操 作 的 一 些 要 求 。 表 19-3 概 
述 了 所 期 望 的 read() 系 统 调用 的 行为 ， 该 系统 调用 从 一 个 管道 大 小 (管道 缓冲 区 中 待 
读 的 字 节 数 ) 为 p 的 管道 中 读 取 nn 个 字 节 ，。 

表 19-3: 从 一 个 管道 中 读 取 n 个 字 节 


至 少 有 一 个 写 进 程 没有 写 进程 












无 睡眠 的 写 者 进程 
等 待 某 一 数据 、 拷 贝 
它 并 返回 它 的 返回 

大 小 -EAGAIN | 
拷贝 p 个 字 节 并 返回 p: 在 管道 的 缓冲 区 中 还 剩 0 
个 字 节 
p>n 拷贝 n 个 字 节 并 返回 n， 在 管道 的 缓冲 区 中 还 剩 p-n 个 字 节 





管道 大 小 p 


p=0 


睡眠 的 写 者 进程 










拷贝 了 个 字 刷 并 返回 P， 返回 0 
当 管道 缓冲 区 为 空 时 


0<p<n 等 待 数据 




















这 个 系统 调用 可 能 以 两 种 方式 阻塞 当前 进程 : 


。 当 系 统 调用 开始 时 管道 缓冲 区 为 空 。 

。 ”管道 缓 种 区 没有 包含 所 有 请 求 的 字 节 ， 写 进程 在 等 待 缓冲 区 的 空间 时 曾 被 置 为 睡 
眠 。 

和 注意， 读 操作 可 以 是 非 阻塞 的 。 在 这 种 情况 下 ， 只 要 所 有 可 用 的 字 节 (即使 是 0 个 ) 一 

被 拷贝 到 用 户 地 址 空间 中 ， 读 操作 就 完成 〈 注 3)。 

还 要 注意 ,只 有 在 管道 为 空 而 且 当 前 疫 有 进程 正在 使 用 与 管道 的 写 通道 相关 的 文件 对 象 

了 时，read() 系 统 调 用 才 会 返回 0。 


注 3: 非 阻塞 操作 通常 部 是 通过 在 open() 系 统 调用 中 指定 O_NONBLOCK 标志 进行 请 求 。 这 个 
方法 并 不 适合 管道 ， 因 为 管道 不 能 被 打开 ; 但 是 ,进程 可 以 通过 对 相应 的 文件 描述 符 发 
出 一 个 fcnt1l() 系 统 调用 来 请 求 对 管道 执行 非 阻 富 操 作 。 
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pipe_read() 国 数 执行 以 下 操作 : 


] . 
2. 


获取 索引 节点 的 i_sem 信 号 量 。 


确定 存放 在 pipe_inode_info 结 构 nrbufs 字 段 中 的 管道 大 小 是 否 为 0。 如 果 是 ， 
说 明 所 有 管道 缓冲 区 为 空 ,这 时 还 要 确定 负数 必须 返回 还 是 进程 在 等 待 时 必须 被 阻 
塞 ， 直 到 其 他 进程 向 管道 中 写 入 一些 数 据 (参见 表 19-3)。LO 操作 的 类 型 (阻塞 
或 非 阻塞 ) 是 通过 文件 对 象 的 f_flags 字 段 中 的 0O_NONBLOCK 标 志 来 表示 的 。 如 果 
当前 进程 必须 被 阻塞 ， 则 国 数 执行 下 列 操作 : 


a. 调用 prepare_to_wait () 把 current 加 到 管道 的 等 待 队 列 (pipe_inoae_info 
结构 的 wait 字段 )。 


b.、 释放 索引 节点 的 信号 量 。 
c. 调用 schedule()。 


一 日 current 被 唤醒 , 就 调用 finish wait() 把 它 从 等 待 队 列 中 删除 , 再 次 获 
取 i_sem 索 引 市 点 信号 量 ， 然 后 跳 回 第 2 步 。 


从 pipe_inode_info 数 据 结构 的 curbuf 字段 得 到 当前 管道 缓冲 区 索引 。 
执行 管道 缓冲 区 的 map 方法 。 
管道 缓冲 区 拷贝 请 求 的 字 节 数 (如 果 较 小 , 就 是 管道 缓冲 区 可 用 字 节 数 ) 到 用 户 
地 让 空间 
执行 管道 缓冲 区 的 unmap 方法 。 
更 新 相应 Pipe_buffer 对 象 的 offset 和 1en 字 段 。 


如 果 管 道 缓 冲 区 已 空 (pipe_buffer 对 象 的 len 字段 现在 等 于 0)， 则 调用 管道 缓 
冲 区 的 release 方法 释放 对 应 的 页 框 ， 把 pipe_buffer 对 象 的 ops 字段 置 为 
NULL， 增加 在 pipe_inode_info 数 据 结 构 的 curbuf 字段 中 存放 的 当前 管道 缓冲 
区 索引 ， 并 减 小 nrbufs 字段 中 非 空 管道 缓冲 区 计数 器 的 值 。 


如 果 所 有 请 求 字 节 撕 贝 完毕 ， 则 跳 至 第 12 步 。 

目前 ， 还 没有 把 所 有 请 求 字 节 撕 贝 到 用 户 态 地 址 空间 。 如 果 管 道 大 小 大 于 0 
(pipe_inode_info 的 nrpufs 字 段 不 是 NULL)， 则 跳 到 第 3 步 。 

管道 缓冲 区 内 已 没有 剩余 字 节 。 如 果 至 少 有 一 个 写 进 程 正 在 睡眠 ( 即 
pipe_inoqe_info 数 据 结 构 的 waiting_writers 字 段 大 于 0) , 且 读 操作 是 阻 赛 的 ， 
那么 调用 wake_up_interruptible_sync() 唤 醒 在 管道 等 待 队列 中 所 有 了 睡眠 的 进 
程 ， 然 后 跳 至 第 2 步 。 


释放 索引 节点 的 1_sem 信 号 量 。 


人 
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13. 调用 wake_up_interruptible_sync() 国 数 唤 醒 在 管道 的 等 待 队 列 中 所 有 睡眠 的 
写 者 进程 。 
14. 返回 拷贝 到 用 户 地 址 空间 的 字 节 数 。 


向 管道 中 写 入 数据 

希望 向 管道 中 写 入 数据 的 进程 发 出 一 个 write() 系 统 调 用 , 为 管道 的 写 端 指定 一 个 文件 
摘 述 符 。 内 核 通 过 调用 适当 文件 对 象 的 write 方 法 来 满足 这 个 请 求 ; write_pipe_fops 
表 中 相应 的 项 指向 pipe_write() 国 数 。 


表 19-4 概述 了 由 POSIX 标准 所 定义 的 write() 系 统 调 用 的 行为 ， 该 系统 调用 请 求 把 
个 字 节 写 人 一 个 管道 中 ， 而 该 管道 在 它 的 缓冲 区 中 有 2 个 未 用 的 字 节 。 有 具体 地 说 ， 该 标 
准 要 求 涉及 少量 字 节 数 的 写 操作 必须 原子 地 执行 。 更 确切 地 说 ,如 果 两 个 或 者 多 个 进程 
并 发 地 在 写 入 一 个 管道 , 那么 任何 少 于 4096 个 字 节 (管道 缓冲 区 的 大 小 ) 的 写 操作 都 必 
须 单独 完成 ,而 不 能 与 唯一 进程 对 同一 个 管道 的 写 操作 交叉 进行 。 但 是 , 超过 4096 个 到 
节 的 写 操作 是 可 分 割 的 ， 也 可 以 强制 调用 进程 睡眠 。 


表 19-4: 把 n 个 字 节 写 入 管道 


| 至 少 有 一 个 读 进程 ee 对 
可 和解 缓冲 区 的 空间 0 | 南 塞 写 . 非 阻塞 写 “ ”| 没有 读 进程 
U<Ds4096 等 待 ， 直 到 有 n-u 个 字 节 | 返回 -EAGAIN 发 送 SIGPIPE 
被 释放 为 止 ， 撕 贝 n 个 字 信号 并 返回 
节 ， 并 返回 了 -EPIPE 
n>4096 找 贝 n 个 字 节 (必要 时 要 | 如 果 u>0， 就 拷贝 
等 待 ) 并 返回 u 个 字 节 并 返回 wu 
否则 就 返回 





-了 AGAIN 





LU 之 呈 拷贝 n 个 字 节 并 返回 





还 有 ， 如 果 管 道 没有 读 进程 (也 就 是 说 ,如果 管道 的 索引 节点 对 象 的 readers 字 段 的 值 
是 0), 那么 任何 对 管道 执行 的 写 操作 都 会 失败 。 在 这 种 情况 下 , 内核 会 向 写 进 程 发 送 一 
个 SIGPIPE 信号 ， 并 停止 write() 系 统 调用 ， 使 其 返回 一 个 -EPIPE 错误 码 ， 这 个 错 
误 码 就 表示 我 们 熟悉 的 “Broken pipe (损坏 的 管道 )” 消 息 。 


pipe_write() 苹 数 执行 以 下 操作 : 
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获取 索引 市 点 的 i_sem 信 号 量 。 


,检查 管道 是 否 至 少 有 一 个 读 进 程 。 如 果 不 是 , 就 向 当前 进程 发 送 一 个 SIGPIPE 信 


号 ， 释 放 索 引 节点 信号 量 并 返回 -EPIPE 值 。 

将 pipe_inode_info 数 据 结 构 curbuf 和 nrbufs 字 段 相 加 并 减 一 得 到 最 后 写 入 的 
管道 缓冲 区 索引 。 如 果 该 管道 缓冲 区 有 足够 空间 存放 待 写 字 节 ,就 找 入 这 些 数 据 : 
a 执行 管道 缓冲 区 的 map 方法 。 

b， 把 所 有 字 节 拷贝 到 管道 缓冲 区 。 

c. 执行 管道 缓冲 区 的 unmap 方法 。 

d，、 更 新 相应 pipe_buffer 对 象 的 len 字段 。 

e. 跳 至 第 11 步 。 


如 果 pipe_inode_info 数 据 结 构 的 nrbufs 字 7 段 等 于 16, 就 表明 没有 空闲 管道 缓冲 

区 来 存放 待 写字 市 。 这 种 情况 下 : 

a. ”如 果 写 操作 是 非 阻 塞 的 ， 跳 至 第 11 步 ， 结 束 并 返回 错误 码 -EAGAIN。 

b. 如果 写 操作 是 阻塞 的 , 将 pipe_inode_info 结 构 的 waiting_writers 字 段 加 1， 
调用 prepare_to_wait () 将 当前 操作 加 入 管道 等 待 队列 (pipe_inode_info 结 
构 的 wait 字段 ) ,释放 索引 节点 信号 量 ,调用 scheaqule()。 一 旦 唤醒 ， 则 调用 
finish_wait () 从 等 待 队列 中 移出 当前 操作 , 重新 获得 索引 节点 信号 量 , 递减 
waiting_writers 字段 , 然后 跳 回 第 4 步 。 

现在 至 少 有 一 个 空 绿 促 区 ,将 pipe_inode_info 数据 结构 的 curbuf 和 nrbufs 字 

段 相 加 得 到 第 一 个 空 管道 缓冲 区 索引 。 

除非 pipe_inode_info 数 据 结 构 的 tmp_page 字 7 段 不 是 NULL, 否则 从 伙伴 系统 中 

分 配 一 个 新 页 框 。 

从 用 户 态 地 址 空间 拷贝 多 达 4096 个 字 节 到 页 框 〈 如 果 必 要 ， 在 内 核 态 线性 地 址 空 

间作 临时 映射 )。 

更 新 与 管道 缓冲 区 关联 的 pipe_buffer 对 象 的 字段 : 将 Page 字段 设 为 页 框 描述 符 

的 地 址 ,ops 字段 设 为 anon_pipe_buf_ops 表 的 地 址 ,offset 字 段 设 为 0,1en 字 段 

设 为 写 入 的 字 节 数 。 

增加 非 空 管道 缓 促 区 计数 器 的 值 , 该 缓冲 区 计数 右 存 帮 在 Pipe_inodae_inf 结 构 的 

nrbufs 字段 。 


如 果 所 有 请 求 的 字 节 还 设 有 号 完 ， 则 跳 至 第 4 步 。 
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11. 释放 索引 市 点 信号 量 。 
12， 唤醒 在 管道 等 待 队列 上 睡眠 的 所 有 读 进 程 。 
13， 返回 写 入 管道 缓冲 区 的 字 市 数 (如 果 无 法 写 入 , 则 返回 错误 码 )。 


FIFO 


虽然 管道 是 一 种 十 分 简单 、 灵 活 、 有 效 的 通信 机 制 , 但 它们 有 一 个 主要 的 缺点 ， 也 就 是 
无 法 打开 已 经 存在 的 管道 。 这 就 使 得 任意 的 两 个 进程 不 可 能 共享 同一 个 管道 ,除非 管道 
由 一 个 共同 的 祖先 进程 创建 。 


这 个 缺点 在 很 多 应 用 程序 中 都 存在 。 例如， 考虑 一 个 数据 库 引 擎 服务 器 ,该 服务 器 连续 
地 轮流 询问 发 出 查询 请 求 的 客户 端 进程 ,并 把 数据 库 查 询 的 结果 返回 客户 端 进 程 。 服 务 
器 和 给 定 客户 端 之 间 的 每 次 交互 都 可 以 使 用 一 个 管道 进行 处 理 。 但 是 , 当 用 户 显 式 查询 
数据 库 时 , 通常 由 shell 命 令 根据 需要 创建 客户 端 进程 , 因此 , 服务 器 进程 和 客户 端 进程 
就 不 能 方便 地 共享 管道 。 


为 了 突破 这 种 限制 ，Unix 系统 引入 了 一 种 称 为 命名 管道 (named pipe) 或 者 F1FO[FIFO 
代表 “先进 先 出 (first in, first out)”: 最 先 写 入 文件 的 字 节 总 是 被 最 先 读 出 ] 的 特殊 文 
件 类 型 ,FIFO 在 这 几 个 方面 都 非常 类 似 于 管道 :在 文件 系统 中 不 拥有 磁盘 块 ,打开 的 FIFO 
总 是 与 一 个 内 核 缓冲 区 相关 联 ,这 一 缓冲 区 中 临时 存放 两 个 或 多 个 进程 之 间 交 换 的 数据 。 


然而 ， 有 了 磁盘 索引 节点 ， 使 得 任何 进程 都 可 以 访问 FIFO， 因 为 FIFO 文件 名 包含 在 系 
统 的 目录 树 中 。 因 此 ， 在 前 面 那个 数据 库 的 例子 中 ， 服 务 器 和 客户 端 之 间 的 通信 可 以 很 
容易 地 使 用 FIFO 而 不 是 管道 。 服 务 器 在 启动 时 创建 一 个 FIFO， 由 客户 端 程序 用 来 发 出 
自己 的 请 求 。 每 个 客户 端 程序 在 建立 连接 之 前 都 另外 创建 一 个 FIFO, 并 在 自己 对 服务 如 
发 出 的 最 初 请 求 中 包含 这 个 FIFO 的 名 字 , 服务 器 程序 就 可 以 把 查询 结果 写 人 这 个 FIFO。 


在 Linux 2.6 中 ,FIFO 和 管道 几乎 是 相同 的 , 并 使 用 相同 的 pipe_inode_info 结 构 。 事 
实 上 , FIFO 的 read 和 write 操 作 就 是 由 前 面 “ 从 管道 中 读 取 数 据 ” 和 “向 管道 中 写 入 
数据 ”这 两 节 描 述 的 pipe_read() 和 pipe_write() 函 数 实现 的 。 事 实 上 ， 只 有 两 点 主 
要 的 差别 ; 

。 FIFO 索引 节点 出 现在 系统 目录 树 上 而 不 是 pipefs 特殊 文件 系统 中 。 

。 FIFO 是 一 种 双向 通信 管道 ， 也 就 是 说 ， 可 能 以 读 / 写 模 式 打 开 一 个 FIFO。 


因此 ， 为 了 完成 我 们 的 描述 ， 我 们 仅 说 明 如 何 创建 和 打开 FIFO。 
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创建 并 打开 FIFO 


进程 通过 执行 mknod ()( 注 4) 系统 调用 创建 一 个 FIFO (参见 第 十 三 章 的 “设备 文件 ” 
一 节 ), 传递 的 参数 是 新 FIFO 的 路 径 名 以 及 S_IFIFO (0x10000) 与 这 个 新 文件 的 权限 
位 掩 码 进行 逻辑 或 的 结果 。POSIX 引入 了 一 个 名 为 mkfifo() 的 系统 调用 专门 用 来 创建 
FIFO。 这 个 系统 调用 在 Linux 以 及 System V Release 4 中 是 作为 调用 mknod() 的 C 库 


FIFO 一 旦 被 创建 ， 就 可 以 使 用 普通 的 open ()、read()、write() 和 close{) 系 统 调 用 
访问 FIFO, 但 是 VFS 对 FIFO 的 处 理 方法 比较 特殊 ， 因 为 FIFO 的 索引 节点 及 文件 操作 
都 是 专用 的 ， 并 且 不 依赖 于 FIFO 所 在 的 文件 系统 。 


POSIX 标 准 定 义 了 open() 系统 调 用 对 FIFO 的 操作 ; 这 种 操作 本 质 上 与 所 请 求 的 访问 类 
型 、L/O 操作 的 种 类 (阻塞 或 非 阻 塞 ) 以 及 其 他 正在 访问 FIFO 的 进程 的 存在 状况 有 关 。 


进程 可 以 为 读 操 作 、 写 操作 或 者 读 写 操作 打开 一 个 FIFO。 根据 这 三 种 情况 , 把 与 相应 的 
文件 对 象 相关 的 文件 操作 设置 成 特定 的 方法 。 


当 进 程 打 开 一 个 FIFO 时 ，VEFS 就 执行 一 些 与 设备 文件 所 执行 的 操作 相同 的 操作 (参见 
第 十 三 章 的 “设备 文件 的 VFS 处 理 ” 一 节 )。 与 打开 的 FIFO 相 关 的 索引 节点 对 象 是 由 依 
赖 于 文件 系统 的 read_inode 超 级 块 方法 进行 初始 化 的 。 这 个 方法 总 要 检查 磁盘 上 的 索 
引 节 点 是 否 表示 一 个 特殊 文件 ,并 在 必要 时 调用 init_special_inoqe() 国 数 。 这 个 国 
数 又 把 索引 节点 对 象 的 i_fop 字 段 设 置 为 def_fifo_fops 表 的 地 址 。 随后 , 内 核 把 文件 
对 象 的 文件 操作 表 设 置 为 GQef_fifo_fops， 并 执行 它 的 open 方法 ， 这 个 方法 由 
fifo_open() 实 现 。 


fifo_open() 困 数 初始 化 专用 于 FIFO 的 数据 结构 ， 具 体 来 说 ， 它 执行 下 列 操作 : 


1. 获取 1i_sem 索 引 节 点 信号 量 。 

2. ”检查 索引 节点 对 象 的 i_pipe 字段 ， 如 果 为 NULL ， 则 分 配 并 初始 化 一 个 新 的 
pipe_inode_info 结 构 , 这 与 本 章 前 面 “ 创 建 和 撤销 管道 ”一 节 的 第 1b ~ 1le 步 相同 。 

3. ”根据 open () 系统 调用 的 参数 中 指定 的 访问 模式 ,用 合适 的 文件 操作 表 的 地 址 初始 
化 文件 对 象 的 f_op 字段 (如 表 19-5 所 示 )。 





注 4: 实际 上 , 用 mknod() 几乎 可 以 创建 任何 种 类 的 文件 , 如 块 设备 文件 、 字 和 罕 设 备 文件 . FIFO 
其 至 是 普通 文件 (但 是 该 函数 不 能 创建 目录 和 矢 接 字 ) 。 
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表 19-5: FIFO 的 文件 操作 


访问 类 型 文件 操作 读 方法 写 方 法 

只 读 read fifo_fops pipe_read() bad _ pipe _w!) 
只 写 write fifo_fops bad pipe_r{) pipe write!{) 
读 / 写 rdwr_fifo_fops pipe_read() pipe write!{) 


4. 如果 访 问 模 式 或 者 为 只 读 或 者 为 读 / 写 ， 则 把 1 加 到 pipe_inode_info 结构 的 
readers 字 段 和 r_counter 字 段 。 此 外 ,如果 访 问 模 式 是 只 读 的 , 且 没 有 其 他 的 读 
进程 ， 则 唤醒 等 待 队列 上 的 任何 写 进 程 。 


5， 如果 访 回 模 式 或 者 为 只 写 或 者 为 读 / 写 ， 则 把 1] 加 到 pipe_inode_info 结构 的 
writers 字 段 和 w_counter 字 段 。 此 外 , 如 果 访 问 模 式 是 只 写 的 , 且 没 有 其 他 的 写 
进程 ， 则 唤醒 等 待 队列 上 的 任何 读 进 程 。 

6. 如果 疫 有 读 进 程 或 没有 写 进 程 , 则 确定 函数 是 应 当 阻塞 还 是 返回 一 个 错误 码 而 终止 
(如 表 19-6 所 示 )。 

表 19-6: fifo_open() 函 数 的 行为 


访问 类 型 阻塞 非 阻 塞 
只 读 ， 有 写 者 成 功 返 回 成 功 返 回 
只 读 ， 无 写 者 等 待 一 个 写 者 成 功 返 回 
只 写 ， 有 读者 成 功 返 回 成 功 返 回 
只 写 ， 无 读者 等 待 一 个 读者 返回 -ENXIO 
读 / 写 成 功 返回 成 功 返 回 





7. 释放 索引 市 点 信号 量 ， 并 终止 ， 返 回 0 (成 功 )。 


FIFO 的 三 个 专用 文件 操作 表 的 主要 区 别 是 read 和 write 方法 的 实现 不 同 。 如 果 访 问 
类 型 允许 读 操作 ,那么 read 方法 是 使 用 pipe_read() 函 数 实现 的 ;否则 ，read 方法 就 
是 使 用 bad_pipe_r() 函 数 实现 的 ,该 函数 只 是 返回 一 个 错误 码 。 类 似 地 ， 如 果 访 问 类 
型 允许 写 操作 ,那么 write 方法 就 是 使 用 pipe_write() 国 数 实现 的 ， 否则，write 方 
法 就 是 使 用 baq_pipe_w() 国 数 实现 的 ， 该 函数 也 只 是 返回 一 个 错误 代码 。 


System V IPC 


IPC 是 进程 间 通 信 (Interprocess Communication ) 的 缩写 , 通常 指 允 许 用 户 态 进程 执行 
下 列 操作 的 一 组 机 制 |: 
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。 ”通过 信号 量 与 其 他 进程 进行 同步 
。 ”向 其 他 进程 发 送 消息 或 者 从 其 他 进程 接收 消息 
。 ”和 其 他 进程 共享 一 段 内 存 区 


System V IPC 最 初 是 在 一 个 名 为 “Columbus Unix” 的 开发 版 Unix 变 体 中 引入 的 , 之 
后 在 AT&T 的 System II 中 采用 。 现在 在 大 部 分 Unix 系统 (包括 Linux) 中 都 可 以 找到 。 


IPC 数 据 结构 是 在 进程 请 求 IPC 资 源 (信号 量 、 消 息 队列 或 者 共享 内 存 区 ) 时 动态 创建 的 。 
每 个 IPC 资 源 都 是 持久 的 : 除非 被 进程 显 式 地 释放 , 否则 永远 驻 留 在 内 存 中 (直到 系统 关 
闭 )。IPC 资源 可 以 由 任 一 进程 使 有 用， 包括 那些 不 共享 祖先 进程 所 创建 的 资源 的 进程 。 


由 于 一 个 进程 可 能 需要 同类 型 的 多 个 IPC 资源 ， 因 此 每 个 新 资源 都 是 使 用 一 个 32 位 的 
IPC 关键 字 来 标识 的 ， 这 和 系统 的 目录 树 中 的 文件 路 径 名 类 似 。 每 个 IPC 资源 都 有 一 个 
32 位 的 IPC 标 识 符 , 这 与 和 打开 文件 相关 的 文件 描述 符 有 些 类 似 。IPC 标 识 符 由 内 核 分 
配给 IPC 资源 ， 在 系统 内 部 是 唯一 的 ， 而 IPC 关键 字 可 以 由 程序 员 自 由 地 寺 择 。 


当 两 个 或 者 更 多 的 进程 要 通过 一 个 IPC 资源 进行 通信 和 时， 这 些 进程 都 要 引用 该 资源 的 
IPC 标识 符 。 


使 用 1PC 资源 


根据 新 资源 是 信号 量 、 消 息 队 列 还 是 共享 内 存 区 ， 分 别 调用 semget () 、msgget () 或 者 
shmget () 函数 创建 IPC 资源 。 

这 三 个 函数 的 主要 目的 都 是 从 IPC 关键 字 (作为 第 一 个 参数 传递 ) 中 导出 相应 的 IPC 标 
识 符 ,进程 以 后 就 可 以 使 用 这 个 标识 符 对 资源 进行 访问 。 如 果 还 没有 IPC 资源 和 IPC 关 
键 字 相关 联 ， 就 创建 一 个 新 的 资源 。 如 果 一 切 都 顺利 ， 那 么 函数 就 返回 一 个 正 的 I1PC 标 
识 符 ， 否则 ， 就 返回 一 个 如 表 19-7 所 示 的 错误 码 。 


表 19-7: 当 请 求 1PC 标识 符 时 返回 的 错误 码 


错误 码 说 明 

EACCESS 进程 没有 适当 的 访问 权限 

EEXIST 进程 试图 创建 一 个 和 已 有 的 关键 字 相 同 的 IPC 资源 

EINVAL 在 semget ()、msgget () 或 shmget () 函数 中 有 非法 参数 

ENOENT 不 存在 具有 所 请 求 的 关键 字 的 1PC 资源 ， 而 且 进 程 没有 请 求 创建 这 个 资源 
ENOMEM 设 有 更 多 的 存储 空间 供 IPC 另外 的 资源 使 用 


ENOSPC 已 经 超过 了 IPC 资源 最 大 数目 的 限制 


/3 第 十 九 章 


假设 两 个 独立 的 进程 想 共 享 一 个 公共 的 IPC 资源 。 这 可 以 使 用 两 种 方法 来 达到 : 


。 ”这 两 个 进程 统一 使 用 固定 的 、 预 定义 的 IPC 关 键 字 。 这 是 最 简单 的 情况 , 对 于 由 很 
多 进程 实现 的 任 一 复杂 的 应 用 程序 也 工作 得 很 好 。 然而, 另外 一 个 无 关 的 程序 也 可 
能 使 用 了 相同 的 IPC 关键 字 。 在 这 种 情况 下 ，IPC 函数 可 能 被 成 功 地 调用 , 但 返回 
错误 资源 的 IPC 标识 符 ( 注 5)。 


。 ”一 个 进程 通过 指定 IPC_PRIVATE 作为 自己 的 IPC 关键 字 来 调用 semget ()、 
msgget () 或 shmget () 国 数 。 一 个 新 的 IPC 资 源 因 此 而 被 分 配 , 这 个 进程 或 者 可 以 
与 应 用 程序 中 的 另 一 个 进程 共享 自己 的 IPC 标识 符 ( 注 6)， 或 者 自己 创建 另 一 个 
进程 。 这 种 方法 确保 IPC 资源 不 会 偶然 被 其 他 应 用 程序 使 用 。 


semget ()、msgget () 和 shmget () 国 数 的 最 后 一 个 参数 可 以 包括 三 个 标志 。PC_CREAT 
说 明 如 果 IPC 资源 不 存在 ,就 必须 创建 它 ，IPC_EXCL 说 明 如 果 资 源 已 经 存在 而 且 设 置 
了 IPC_CREAT 标 志 , 那么 录 数 就 必定 失败 ，IPC_NOWAIT 说 明 访 问 IPC 资源 时 进程 从 
不 阻塞 (典型 的 情况 如 取得 消息 或 获取 信号 量 )。 


即使 进程 使 用 了 IPC_CREAT 和 IPC_EXCL 标 志 , 也 没有 办 法 保证 对 一 个 IPC 资 源 进行 
排 它 访问 ， 因 为 其 他 进程 也 可 能 用 自己 的 IPC 标识 符 引 用 了 这 个 资源 。 


为 了 把 不 正确 地 引用 错误 资源 的 风险 降 到 最 小 , 内 核 不 会 在 IPC 标 识 符 一 空闲 时 就 再 利 
用 它 。 相 反 , 分 配给 资源 的 IPC 标识 符 总 是 大 于 给 同类 型 的 前 一 个 资源 所 分 配 的 标识 符 
(唯一 的 例外 发 生 在 32 位 的 IPC 标 识 符 溢出 时 )。 每 个 IPC 标 识 符 都 是 通过 结合 使 用 与 资 
源 类 型 相关 的 位 置 使 用 序号 (slot usage sequence number)、 已 分 配 资源 的 任意 位 置 索 
引 (slot index) 以 及 内 核 中 为 可 分 配 资源 所 选 定 的 的 最 大 值 而 计算 出 来 的 。 如 果 我 们 使 
用 :来 代表 位 置 使 用 序号 ，M 来 代表 可 分 配 资源 的 最 大 数目 ，i 来 代表 位 置 索 引 ， 此 处 
0 < ix<M， 则 每 个 IPC 资源 的 ID 都 可 以 按 如 下 公式 来 计算 . 


IPC 标识 符 =s XM+ti 


在 Linux 2.6 中 ，M 的 值 设 为 32768 (IPCMNI 宏 )。 位 置 使 用 序号 ;被 初始 化 成 0， 每 次 
分 配 资 源 时 增加 1。 当 达到 预定 的 赋值 时 (这 取决 于 IPC 资源 类 型 ), 它 从 0 重新 开始 。 


注 5: ftok () 函 数 试图 从 作为 参数 传递 的 文件 路 径 名 和 一 个 8 位 对 象 标 识 待 中 获得 一 个 新 关键 
字 。 但 是 这 并 不 能 担保 是 一 个 唯一 关键 字 ， 因 为 也 有 可 能 使 用 不 同 路 径 名 和 对 和 象 标 识 竺 
的 两 个 不 同 应 用 程序 会 返回 同一 个 IPC 关键 字 ， 不 过 这 种 机 会 很 小 。 


注 6: 当然 ， 这 就 疙 味 着 进程 之 间 另 一 个 通信 通道 的 存在 并 不 基于 IPC。 
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IPC 资源 的 每 种 类 型 〈 信 号 量 、 消 息 队 列 和 共享 内 存 区 ) 都 拥有 ipc_ids 数据 结构 ， 该 
结构 包括 的 字段 如 表 19-8 所 示 。 


表 19-8: ipc_ids 数据 结构 的 字段 





类 型 字段 说 明 

int in_use 已 分 配 IPC 资源 数 

int max_id 在 使 用 的 最 大 位 置 索引 

unsigned short seq 下 一 个 分 配 的 位 置 使 用 序号 

unsigned short Seq_max 最 大 位 置 使 用 序号 

struct semaphore sem 保护 ijpc_igs 数据 结构 的 信号 量 

struct ipc_id ary nullentry 如 果 IPC 资 源 无 法 初始 化 , 则 entries 字 段 
指 癌 伪 数 据 结 构 (一 般 不 使 用 ) 

struct ipc_id ary * entries 指向 资源 的 ijpc_ig_ary 数据 结构 的 指针 





ipc_iq_ary 数据 结构 有 两 个 字段 : p 和 size。P 字 段 是 一 个 指向 kern_ipc_perm 数 据 
结构 的 指针 数组 ， 每 个 结构 对 应 一 个 可 分 配 资 源 。size 字 段 是 这 个 数组 的 大 小 。 最 初 ， 
数组 为 共享 内 存 区 、 消 息 队 列 与 信号 量 分 别 存 放 1、16 或 128 个 指针 。 当 太 小 时 ， 内 核 
动态 地 增 大 数组 。 但 是 每 种 资源 都 有 个 上 限 。 系 统管 理 员 可 以 修改 /proc/sys/kernel/ 
sem、/proc/sys/kernel/msegmni 和 /proc/sys/KkerneWshmmni 这 三 个 文件 以 改变 这 些 上 限 。 


每 个 kern_ipc_perm 数 据 结构 与 一 个 IPC 资 源 相 关联 , 并 且 包 含 如 表 19-9 所 示 的 字段 。 
uia、 gid、 cuid 和 cgiG 分 别 存放 资源 的 创建 者 的 用 户 标识 符 和 组 标识 符 以 及 当前 资源 
属 主 的 用 户 标 识 符 和 组 标识 符 。 mode 位 掩 码 包括 六 个 标志 , 分 别 存 放 资 源 的 属 主 、 组 以 
及 其 他 用 户 的 读 、 写 访问 权限 。IPC 访问 许可 权 和 第 一 章 的 “访问 权限 和 文件 模式 ”一 
节 中 介绍 的 文件 访问 许可 权 类 似 ， 唯 一 不 同 的 是 这 里 没有 执行 许可 权 标 志 。 


表 19-9: kern_ipc_perm 结构 中 的 字段 


类 型 字段 说 明 

spinlock_t lock 保护 IPC 资源 描述 符 的 自 旋 锁 

int deleted 如 果 资 源 已 被 释放 ， 则 设置 该 标志 
int key IPC 关键 字 

unsigned int uid 属 主 用 户 ID 

unsigned int gid 属 主 组 ID 

unsigneqd int cuid 创建 者 用 户 ID 


unsigned int cgiqd 创建 者 组 ID 
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表 19-9: kern_ipc_perm 结构 中 的 字段 ( 续 ) 


类 型 字段 说 明 

unsigned short mode 许可 权 位 掩 码 

unsigned long seq 位 置 使 用 序号 

VOid* security 安全 结构 指针 (用 于 SELinux) 


kern_ipc_perm 数 据 结 构 也 包括 一 个 key 字段 和 一 个 seq 字段 ， 前 者 指 的 是 相应 资源 
的 IPC 关键 字 ， 后 者 存放 的 是 用 来 计算 该 资源 的 IPC 标识 符 所 使 用 的 位 置 使 用 序号 。 


semct1()、msgct1() 和 shmctl () 国 数 都 可 以 用 来 处 理 IPC 资源 。IPC_SET 了 于 命令 允 
许 进 程 改 变 属 主 的 用 户 标 识 符 和 组 标识 符 以 及 ijpc_perm 数 据 结构 中 的 许可 权 位 掩 码 。 
IPC_STAT 和 IPC_INFO 子 命令 取得 和 资源 有 关 的 信息 。 最 后 ，IPC_RMID 子 命令 释放 
IPC 资源 。 根 据 IPC 资源 的 种 类 不 同 ， 还 可 以 使 用 其 他 专用 的 子 命令 ( 注 7)。 


一 旦 一 个 IPC 资源 被 创建 ， 进 程 就 可 以 通过 一 些 专用 函数 对 这 个 资源 进行 操作 。 进 程 可 
以 执行 semop () 函数 获得 或 释放 一 个 IPC 信号 量 。 当 进程 希望 发 送 或 接收 一 个 IPC 消息 
时 ,就 分 别 使 用 msgsnd3() 和 msgrcv() 尔 数 。 最 后 ,进程 可 以 分 别 使 用 shmat () 和 shmaqt () 
图 数 把 一 个 共享 内 存 区 附加 到 自己 的 地 址 空间 中 或 者 取消 这 种 附加 关系 。 


ipc() 系 统 调用 


所 有 的 IPC 函数 都 必须 通过 适当 的 Linux 系统 调用 实现 。 实 际 上 , 在 80 x 86 体 系 结构 
中 ,只 有 一 个 名 为 ipc () 的 IPC 系 统 调用 。 当 进程 调用 一 个 IPC 函 数 时 ,比如 说 msgget ()， 
该 函数 实际 上 调用 C 库 中 的 一 个 封装 尔 数 ， 该 函数 又 通过 传递 msgget () 的 所 有 参数 加 
上 一 个 适当 的 子 命令 代码 (在 本 例 中 是 MSGGET) 来 调用 ipc () 系统 调用 。sys_ipc() 
服务 例 程 检查 子 命 令 代 码 ， 并 调用 内 核 函 数 实现 所 请 求 的 服务 。 


ipc() 多 路 复 用 系统 调用 是 从 早期 的 Linux 版 本 中 继承 而 来 的 , 早期 Linux 版 本 把 IPC 
代码 包含 在 动态 模块 中 (参见 附录 二 )。 在 system_call 表 中 为 可 能 未 实现 的 内 核 部 件 保 
留 几 个 系统 调用 入 口 并 没有 什么 意义 ， 因 此 内 核 设计 者 就 采用 了 这 种 多 路 复 用 的 方法 。 


现在 ，System V IPC 不 再 作为 动态 模块 被 编译 ， 因 此 也 就 没有 理由 使 用 单个 IPC 系统 
调用 。 事 实 上 ，Linux 在 HP 的 Alpha 体系 结 构 和 Intel 的 IA-64 上 为 每 个 IPC 负数 都 提 
供 了 一 个 系统 调用 。 


注 7: IPC 在 设计 上 的 一 个 款 陷 是 用 户 态 进程 不 能 原子 地 创建 和 初始 化 一 个 IPC 信号 量 ， 因 为 
这 两 个 操作 是 由 两 个 不 同 的 IPC 函数 执行 的 。 
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IPC 信号 量 
IPC 信 号 量 和 在 第 五 章 中 介绍 的 内 核 信号 量 非常 类 似 : 二 者 都 是 计数 器 ， 用 来 为 多 个 进 
程 共享 的 数据 结构 提供 受 控 访问 。 


如 果 受 保护 的 资源 是 可 用 的 ,那么 信号 量 的 值 就 是 正 数 ; 如果 受 保护 的 资源 现 不 可 用 , 那 
么 信号 量 的 值 就 是 0。 要 访问 资源 的 进程 试图 把 信号 量 的 值 减 1, 但 是 ,内核 阻塞 这 个 进 
程 ， 直 到 在 这 个 信号 量 上 的 操作 产生 一 个 正 值 。 当 进程 释放 受 保护 的 资源 时 ， 就 把 信号 
量 的 值 增加 1* 在 这 样 处 理 的 过 程 中 , 其 他 所 有 正在 等 待 这 个 信号 量 的 进程 就 都 被 唤醒 。 


实际 上 ，IPC 信号 量 比 内 核 信 号 量 的 处 理 更 复杂 是 由 于 两 个 主要 的 原因 ; 


。 ”每 个 IPC 信 号 量 都 是 一 个 或 者 多 个 信号 量 值 的 集合 ,而 不 像 内 核 信 号 量 一 样 只 有 一 
个 值 。 这 意味 着 同一 个 IPC 资源 可 以 保护 多 个 独立 、 共 享 的 数据 结构 。 在 资源 正在 
被 分 配 的 过 程 中 ， 必 须 把 每 个 IPC 信号 量 中 的 信号 量 的 个 数 指定 为 semget () 国 数 
的 一 个 参数 。 从 现在 开始 ， 我 们 就 把 信号 量 内 部 的 计数 器 作为 原始 信号 量 
(primitive semaphore) 来 391 用 。IPC 信号 量 资源 的 个 数 和 单个 IPC 资源 内 原始 信 
号 量 的 个 数 都 有 界限 ， 其 缺 省 值 前 者 为 128， 后 者 为 250， 不 过 ， 系 统管 理 员 可 以 
通过 /proc/sys/kernel/sem 文件 很 容易 地 修改 这 两 个 界限 。 


。 ”System V IPC 信号 量 提供 了 一 种 失效 安全 机 制 ， 这 是 用 于 进程 不 能 取消 以 前 对 信 
号 量 执行 的 操作 就 死亡 的 情况 的 。 当 进程 选择 使 用 这 种 机 制 时 , 由 此 引起 的 操作 就 
是 所 谓 的 可 取消 的 (undoable) 信 号 量 操 作 。 当 进程 死亡 时 , 所 有 IPC 信 号 量 都 可 以 
恢复 成 原来 的 值 ， 就 好 像 从 来 都 没有 开始 它 的 操作 。 这 有 助 于 防止 出 现 这 种 情况 : 
由 于 正在 结束 的 进程 不 能 手工 取消 它 的 信号 量 操作 ,其 他 使 用 相同 信号 量 的 进程 无 
限 地 停留 在 阻塞 状态 。 


首先 我 们 简要 描绘 一 下 , 当 进 程 想 访问 IPC 信 号 量 所 保护 的 一 个 或 者 多 个 资源 时 所 执行 
的 典型 步 又 ， 


]. 调用 semget () 封 装 函 数 来 获得 IPC 信号 量 标 识 符 ， 作 为 参数 指定 对 共享 资源 进行 
保护 的 IPC 信号 量 的 IPC 关 键 字 。 如 果 进 程 希 望 创 建 一 个 新 的 IPC 信号 量 ， 则 还 要 
指定 IPC_CREATE 或 者 IPC_PRIVATE 标 志 以 及 所 需要 的 原始 信号 量 (参见 本 章 
前 面 的 “使 用 IPC 资源 ”一 节 )。 

2. ”调用 semop() 封 装 函 数 来 测试 并 递减 所 有 原始 信号 量 所 涉及 的 值 .如 果 所 有 的 测试 
全 部 成 功 , 就 执行 递减 操作 , 结束 函数 并 允许 这 个 进程 访问 受 保护 的 资源 。 如 果 有 
些 信号 量 正在 使 用 , 那么 进程 通常 都 会 被 挂 起 , 直到 某 个 其 他 进程 释放 这 个 资源 为 
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止 。 国 数 接收 的 参数 为 IPC 信 号 量 标识 符 . 用 来 指定 对 原始 信号 量 所 进行 的 原子 操 
作 的 一 组 整数 以 及 这 种 操作 的 个 数 。 作 为 选项 , 进程 也 可 以 指定 SEM_UNDO 标 志 ， 
这 个 标志 通知 内 核 : 如 果 进 程 没有 释放 原始 信号 量 就 退出 ， 那 么 撤消 那些 操作 。 


3.，” 当 放弃 受 保护 的 资源 时 ,就 再 次 调用 semop () 国 数 来 原子 地 增加 所 有 有 关 的 原始 信 
号 量 。 

4. 作为 选择 ， 调 用 semct1() 封 装 函 数 , 在 参数 中 指定 IPC_RMID 命 令 把 这 个 IPC 信 
号 量 从 系统 中 删除 。 


现在 我 们 就 可 以 讨论 内 核 是 如 何 实现 IPC 信号 量 的 。 有 关 的 数据 结构 如 图 19-1 所 示 。 
sem_iqas 变 最 存放 IPC 信 号 量 资源 类 型 的 ipc_ids 数 据 结构 : 对 应 的 ipc_id_ary 数 据 结 
构 包 含 一 个 指针 数组 , 它 指向 sem_array 数 据 结构 , 每 个 元 素 对 应 一 个 1PC 信 号 量 资 源 。 


每 个 信号 量 的 链表 


PN 证 汪 证 二 基站 下 慎 训 二 下 首 本 是 关 二 站 症 寺 二 十 让 全 二 证 证 着 王 可 是 可 二 下 间 入 省 struct 
: sem undo 


挂 起 请 求 队列 


UN 
struct : struct 
> sem queue : sem undo 


id next 


: a 仿 > : 
: 
: struct struct 
: sem queue | sem undo 
struct sem : = 


: struct struct 
: a 
sem pending last | sem queue sem_undo 


19-1: IPC 信和 号 量 数据 结构 





从 形式 上 说 , 这 个 数组 存放 指向 kern_ipc_perm 数 据 结构 的 指针 , 但 是 每 个 结构 只 不 过 
是 sem_array 数 据 结构 的 第 一 个 字段 。sem_array 数 据 结构 的 所 有 字段 如 表 19-10 所 示 。 
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表 19-10: sem_array 数据 结构 中 的 字段 


类 型 字段 说 明 

struct kern_ipc_perm sem_perm kern_ipc_perm 数 据 结 构 

long sem_ot ime 最 后 一 次 调用 semop () 的 时 间 惟 
long sem_ctime 最 后 一 次 修改 的 时 间 惟 

struct sem * sem_base 指 同 第 一 个 sem 结构 的 指针 
struct sem queue * sem_pending 挂 起 操作 

struct sem queue ** sem pending_last 最 后 一 次 挂 起 操作 

struct sem undo * undo 取消 请 求 

unsigned short sem_nsems 数组 中 信号 量 的 个 数 





sem_base 字 段 指向 sem 数据 结构 的 数组 ， 每 个 元 素 对 应 一 个 IPC 原始 信号 量 。sem 数 
据 结构 只 包括 两 个 字段 : 


semval 
言 号 量 的 计数 绢 的 值 。 
sempid 


最 后 一 个 访问 信号 量 的 进程 的 PID。 进 程 可 以 使 用 semct1() 封 装 函数 查询 该 值 。 


可 取消 的 信号 量 操作 
如 果 一 个 进程 突然 放弃 执行 , 那么 它 就 不 能 取消 已 经 开始 执行 的 操作 (例如 ,释放 自己 
保留 的 信号 量 )， 因 此 通过 把 这 些 操作 定义 成 可 取消 的 ， 进 程 就 可 以 让 内 核 把 信号 量 返 
回 到 一 致 状态 并 允许 其 他 进程 继续 执行 。 进 程 可 以 在 semop () 国 数 中 指定 SEM_UNDO 标 
志 来 请 求 可 取消 的 操作 。 


为 了 有 助 于 内 核 撤 消 给 定 进程 对 给 定 的 IPC 信 号 量 资源 所 执行 的 可 撤销 操作 , 有 关 的 信 
息 存 放 在 sem_undao 数 据 结构 中 。 这 个 结构 实际 上 包含 信号 量 的 IPC 标 识 符 及 一 个 整数 
数组 ， 这 个 数组 表示 由 进程 执行 的 所 有 可 取消 操作 对 原始 信号 量 值 引 起 的 修改 。 


有 一 个 简单 的 例子 可 以 说 明 如 何 使 用 这 种 sem_undao 元 素 。 考 虑 一 个 进程 使 用 具有 4 个 
原始 信号 量 的 一 个 IPC 信号 量 资源 ,并 假设 该 进程 调用 semop () 函 数 把 第 一 个 计数 器 的 
值 增 加 1 并 把 第 二 个 计数 器 的 值 减 2。 如 果 该 负数 指定 了 SEM_UNDO 标 志 ，sem_undo 数 
据 结构 中 的 第 一 个 数组 元 素 中 的 整数 值 就 被 减少 1, 而 第 二 个 元 素 就 被 增加 2, 其 他 两 个 
整数 都 保持 不 变 。 同 一 进程 对 这 个 IPC 信 和 号 量 执行 的 更 多 的 可 取消 操作 将 相应 地 改变 存 
放 在 sem_undo 结 构 中 的 整数 值 。 当 进程 退出 时 ,该 数组 中 的 任何 非 零 值 就 表示 对 相应 
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原始 信号 量 的 一 个 或 者 多 个 错乱 操作 ,内 核 只 简单 地 给 相应 的 原始 信号 量 计数 器 增加 这 
个 非 零 值 来 取消 这 些 操作 。 换 而 言 之 , 把 异常 中 断 的 进程 所 做 的 修改 退回 , 而 其 他 进程 
所 做 的 修改 仍然 能 反映 信号 量 的 状态 。 


对 于 每 个 进程 来 说 , 内 核 都 要 记录 以 可 取消 操作 处 理 的 所 有 信号 量 资 源 , 这 样 如 果 进 程 
意外 退出 ， 就 可 以 回 滚 这 些 操作 。 还 有 ， 内 核 还 必须 对 每 个 信号 量 都 记录 它 所 有 的 
sem_undo 结 构 , 这 样 只 要 进程 使 用 semct1l() 来 强行 给 一 个 原始 信和 号 量 的 计数 器 赋 一 个 
明确 的 值 或 者 撤消 一 个 IPC 信号 量 资源 时 ， 内 核 就 可 以 快速 访问 这 些 结构 。 


正 是 由 于 两 个 链表 (我们 称 之 为 每 个 进程 的 链表 和 每 个 信号 量 的 链表 )， 使 得 内 核 可 以 
有 效 地 处 理 这 些 任 务 。 第 一 个 链表 记录 给 定 进程 以 可 取消 操作 处 理 的 所 有 信号 量 。 第 二 
个 链表 记录 对 以 可 取消 操 对 给 定 信号 量 进行 操作 的 所 有 进程 。 更 确切 地 说 . 


。 ”每 个 进程 链表 包含 所 有 的 sem_undo 数据 结构 ， 该 结构 对 应 于 进程 执行 了 可 取消 操 
作 的 IPC 信 号 量 。 进程 描述 符 的 sysvsem.undo_list 字 7 段 指向 一 个 sem undo list 
类 型 的 数据 结构 ,而 该 结构 又 包含 了 指针 指 同 该 链表 的 第 一 个 元 素 。 每 个 sem_ungo 
数据 结构 的 proc_next 字段 指向 该 链表 的 下 一 个 元 素 (在 第 三 章 “clone()、fork() 
及 vfork() 系 统 调用 ”一 节 我 们 讲 过 ， 因 为 都 共享 一 个 sem_undo_list 描述 符 ， 将 
CLONE_SYSVSEM 标 志 传 给 clone() 系统 调用 而 克隆 的 进程 都 共享 同一 个 可 取消 信 
号 有 量 操作 链表 ) 。 


。 ”每 个 信号 量 链表 包含 的 所 有 sem_unaqo 数 据 结构 对 应 于 在 该 信号 量 上 执行 可 取消 操 
作 的 进程 。sem_array 数据 结构 的 undo 字段 指 同 链表 的 第 一 个 元 素 ， 而 每 个 
sem_undo 数据 结构 的 id_next 字段 指向 链表 的 下 一 个 元 素 。 


当 进 程 结束 时 ,每 个 进程 的 链表 才 被 使 用 。exit_sem () 函数 由 do_exit() 调 用 , 后 者 
会 遍历 这 个 链表 ,并 为 进程 所 涉及 的 每 个 IPC 信 和 号 量 平息 错乱 操作 产生 的 影响 。 与 此 相 
对 照 ， 当 进程 调用 semct1l () 函数 强行 给 一 个 原始 信号 量 赋 一 个 明确 的 值 时 ， 每 个 信和 号 
量 的 链表 才 被 使 用 。 内 核 把 指向 IPC 信号 量 资源 的 所 有 sem_unao 数据 结构 中 的 数组 的 
相应 元 素 都 设置 成 0, 因为 撤消 原始 信号 量 的 一 个 可 取消 操作 不 再 有 任何 意义 。 此 外 ,在 
IPC 信 号 量 被 清除 时 , 每 个 信号 量 链表 也 被 使 用 。 通过 把 semid 字 段 设 置 成 -1 而 使 所 有 
有 关 的 sem_undo 数据 结构 都 变 为 无 效 〈( 注 8)。 


注 8: 注意 仅仅 是 使 这 些 数据 结构 无 效 而 已 ， 并 没有 释放 它们 ， 因 为 从 所 有 进程 的 每 个 进程 链 
表 中 删除 这 些 数据 结构 的 代价 太 高 了 。 
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挂 起 请 求 的 队列 

内 核 给 每 个 IPC 信号 量 都 分 配 了 一 个 挂 起 请 求 队列 ， 用 来 标识 正在 等 待 数组 中 的 一 个 
(或 多 个 ) 信号 量 的 进程 。 这 个 队列 是 一 个 sem_queue 数据 结构 的 双向 链表 ， 其 字段 如 
表 19-11 所 示 。 队 列 中 的 第 一 个 和 最 后 一 个 挂 起 请 求 分 别 由 sem_array 结构 中 的 
sem_pending 和 sem_pending_last 字 段 所 指向 。 这 最 后 一 个 字段 允许 把 链表 作为 一 个 
FIFO 进行 简单 的 处 理 。 新 的 挂 起 请 求 都 被 追加 到 链表 的 末尾 ， 这 样 就 可 以 稍 后 得 到 服 
务 。 挂 起 请 求 最 重要 的 字段 是 nsops 和 sops, 前 者 存放 挂 起 操作 所 涉及 的 原始 信号 量 的 
个 数 , 后 者 指向 描述 每 个 信号 量 操作 的 整 型 数组 。sleeper 字 段 存放 发 出 请 求 操 作 的 睡 
眠 进程 的 描述 符 地 址 。 


表 19-11: sem_queue 数据 结构 中 的 字段 


类 型 字段 说 明 

struct sem queue * next 指向 下 一 个 队列 元 素 的 指针 
struct sem queue ** prev 指 同 上 一 个 队列 元 素 的 指针 
struct wait_queue * sleeper 指向 请 求 信 号 量 操作 的 睡眠 进程 
struct sem undo * undo 指 同 sem_ungo 结构 的 指针 
int pid 进程 标识 符 

int status 操作 的 完成 状态 

struct sem array * sma 1PC 信号 量 的 描述 符 指 针 
int id IPC 信号 量 的 位 置 索引 
struct sembuf * SOPS 指向 挂 起 操作 的 数组 的 指针 
int nsops 挂 起 操作 的 个 数 


图 19-1 显 示 有 三 个 挂 起 请 求 的 一 个 IPC 信 号 量 。 第 二 个 和 第 三 个 请 求 涉及 可 取消 操作 ， 
因此 sem_queue 数据 结构 的 undo 字段 指向 相应 的 sem_undo 结 构 ， 第 一 个 挂 起 请 求 的 
undo 字段 为 NULL， 因 为 相应 的 操作 是 不 可 取消 的 。 


IPC 消息 


进程 彼此 之 间 可 以 通过 IPC 消息 进行 通信 。 进程 产生 的 每 条 消息 都 被 发 送 到 一 个 IPC 消 
息 队 列 中 ， 这 个 消息 一 直 存 放 在 队列 中 直到 另 一 个 进程 将 其 读 走 为 止 。 
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消息 是 由 固定 大 小 的 首部 和 可 变 长 度 的 正文 组 成 的 ， 可 以 使 用 一 个 整数 值 (消息 类 型 ) 
标识 消 上 县 , 这 就 允许 进程 有 选择 地 从 消息 队列 中 获取 消息 ( 注 9)。 只 要 进程 从 IPC 请 电 
队列 中 读 出 一 条 消息 ,内核 就 把 这 个 消息 删除 ， 因此 ， 只 能 有 一 个 进程 接收 一 条 给 定 的 
消 已 。 


为 了 发 送 一 条 消息 ， 进 程 权 调用 msgsnqa () 国 数 ， 传 递 给 它 以 下 参数 : 


. 目标 消息 队列 的 IPC 标识 外 
。 ”消息 正文 的 大 小 
。 ”用户 态 缓 冲 区 的 地 址 ， 绿 溃 区 中 包含 消息 类 型 ， 之 后 紧 跟 消 息 正文 


进程 要 获得 一 条 消息 就 要 调用 msgrcv() 函 数 ， 传 递 给 它 如 下 参数 : 


。 IPC 消息 队列 资源 的 IPC 标识 4 

。 ”指向 用 户 态 缓 促 区 的 指针 ， 消 息 类 型 和 消息 正文 应 该 到 被 措 贝 这 个 缓冲 区 
。 ”缓冲 区 的 大 小 

。 ”一 个 值 :， 指 定 应 该 获得 什么 消息 


和 如果! 的 值 为 0， 就 返回 队列 中 的 第 一 条 消息 。 如 果 1 为 正 数 ， 就 返回 队列 中 类 型 等 于 1 
的 第 一 条 消息 。 最 后 ,如 果 1 为 负数 , 就 返回 消息 类 型 小 于 等 于 1 绝对 值 的 最 小 的 第 一 条 
消息 。 


为 了 避免 资源 耗 尽 ，IPC 消息 队列 资源 在 这 几 个 方面 是 有 限制 的 : IPC 消息 队列 数 〈 缺 
省 为 16), 每 个 消息 的 大 小 ( 缺 省 为 8192 字 市 ) 及 队列 中 全 部 信息 的 大 小 ( 缺 省 为 16384 
字 节 )。 不 过 和 前 面 类 似 , 系统 管理 员 可 以 分 别 修改 /proc/sys/kernel/msemni、 /proc/sys/ 
kernel/msgmnb 和 /proc/sys/kernel/msemax 文件 调整 这 些 值 。 


与 IPC 消息 队列 有 关 的 数据 结构 如 图 19-2 所 示 。 msg_iqas 变 量 存放 IPC 消息 队列 资源 类 
型 的 ipc_ids 数据 结构 ， 相 应 的 ijpc_iqd_ary 数据 结构 包含 一 个 指向 shmid_kernel 数 
据 结 构 的 指针 数组 每 个 IPC 消息 资源 对 应 一 个 元 素 。 从 形式 上 看 ， 数 组 中 存放 指 
癌 kern_ipc_perm 数 据 结构 的 指针 , 但 是 , 每 个 这 样 的 结构 只 不 过 是 msg_queue 数 据 结 
构 的 第 一 个 字段 。msg_queue 数据 结构 的 所 有 字段 如 表 19-12 所 示 。 





注 9: 我 们 将 看 到 ,消息 队列 是 使 用 一 个 链表 实现 的 。 因 为 消息 可 以 按照 非 “ 先 进 先 出 ”的 次 
序 获得 ， 因 此 “消息 队列 ”这 个 名 字 并 不 恰当 。 不 过 ， 新 消息 通常 都 放 在 链表 的 末尾 。 
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消息 正文 续 ) 

19-2: IPC 消息 队列 数据 结构 
表 19-12: msg_queue 数据 结构 
类 型 字段 说 明 
struct kern_ipc_perm G_Perm kern_ipc_perm 数 据 结 构 
long q_stime 最 后 调用 msgsna() 的 时 间 
long me 最 后 调用 msgrcv () 的 时 间 
long q_ctime 最 后 修改 的 时 间 
unsigned long q_gqcbytes 队列 中 的 字 节 数 
unsigned long q_qnum 队列 中 的 消息 数 
unsigqned long q_qbytes 队列 中 的 最 大 字 节 数 
EE dL86ig 最 后 调用 msgsnd(}) 的 PID 
int q_lrpid 最 后 调用 msgrcv() 的 PID 
struct list_head q_messages 队列 中 的 消息 链表 
struct list_head q_receivers 接收 消息 的 进程 链表 
struct list_head q_senders 发 送 消 息 的 进程 链表 


最 重要 的 字段 是 q_messages， 它 表示 包含 队列 中 当前 所 有 消息 的 双向 循环 链表 的 首部 
(也 就 是 第 一 个 哑 元 素 ) 。 


每 条 消息 分 开 存放 在 一 个 或 多 个 动态 分 配 的 页 中 。 第 一 页 的 起 始 部 分 存放 消息 头 , 消息 
头 是 一 个 msg_msg 类 型 的 数据 结构 ， 它 的 字段 如 表 19-13 所 示 。m_list 字 段 指 向 队列 中 
前 一 条 和 后 一 条 消息 的 指针 。 消 和 的 正文 正好 从 msg_msg 拉 述 符 之 后 开始 ; 如 果 消 息 (页 
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的 大 小 减 去 msg_msg 描述 符 的 大 小 ) 大 于 4072 字 节 ， 就 继续 放 在 另 一 页 ， 它 的 地 址 存 
放 在 msg_msg 描 述 符 的 next 字段 中 。 第 二 个 页 框 以 msg_msgseg 类 型 的 描述 符 开始 , 这 
个 描述 符 只 包含 一 个 next 指针 ， 该 指针 存放 可 选 的 第 三 个 页 ， 以 此 类 推 。 


表 19-13，msg_msg 数据 结构 


类 型 字段 说 明 

struct list_head m_ list 用 于 消息 链表 的 指针 

long mtype 消息 类 型 

int mts 消息 正文 的 大 小 

Struct msg_ msgseg * next 消息 的 下 一 部 分 

void* sechrity  _ 安全 数据 结构 指针 (用 于 SELinux) 


当 宵 息 队列 满 时 (或 者 达到 了 最 大 消息 数 ， 或 者 达到 了 队列 最 大 字 节 数 )， 则 试图 让 新 
消息 入 队 的 进程 可 能 被 阻塞 msg_queue 数 据 结 构 的 q_senders 字 段 是 所 有 阻塞 的 发 送 


当 消 息 队 列 为 空 时 (或 者 当 进 程 指 定 的 一 条 消息 类 型 不 在 队列 中 时 )， 则 接收 进程 也 会 
被 阻塞 ,msg_queue 数 据 结 构 的 q_receivers 字 段 是 msg_receiver 数 据 结构 链表 的 头 ， 
每 个 阻塞 的 接收 进程 对 应 其 中 一 个 元 素 。 其 中 的 每 个 结构 本 质 上 都 包含 一 个 指向 进程 描 
述 的 指针 、 一 个 指向 消息 的 msg_msg 结构 的 指针 和 所 请 求 的 消息 类 型 。 


IPC 共享 内 存 


最 有 用 的 IPC 机 制 是 共享 内 存 , 这 种 机 制 允 许 两 个 或 多 个 进程 通过 把 公共 数据 结构 放 入 
一 个 共享 内 存 区 (IPC shared memory region) 来 访问 它们 。 如 果 进 程 要 访问 这 种 存放 在 
共享 内 存 区 的 数据 结构 , 就 必须 在 自己 的 地 址 空间 中 增加 一 个 新 内 存 区 (参见 第 九 童 的 
“线性 区 ”一 节 ), 它 将 映射 与 这 个 共享 内 存 区 相关 的 页 框 。 这 样 的 页 框 可 以 很 容易 地 由 
内 核 通 过 请 求 调 页 进行 处 理 (参见 第 九 章 的 “请 求 调 页 ”一 节 )。 


与 信和 号 量 以 及 消息 队列 一 样 , 调用 shmget () 函数 来 获得 一 个 共享 内 存 区 的 IPC 标 识 符 ， 
如 果 这 个 共享 内 存 区 不 存在 ， 就 创建 它 。 


调用 shmat () 函数 把 一 个 共享 内 存 区 “附加 (attach)” 到 一 个 进程 上 。 该 函数 使 用 IPC 
共享 内 存 资 源 的 标识 符 作 为 参数 ,并 试图 把 一 个 共享 内 存 区 加 入 到 调用 进程 的 地 址 空间 
中 。 调 用 进程 可 以 获得 这 个 内 存 区 域 的 起 始 线性 地 址 , 但 是 这 个 地 址 通常 并 不 重要 , 访 
问 这 个 共享 内 存 区 域 的 每 个 进程 都 可 以 使 用 自己 地 址 空间 中 的 不 同 地 址 。shmat () 函数 
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不 修改 进程 的 页 表 。 我 们 稍 后 会 介绍 在 进程 试图 访问 属于 新 内 存 区 域 的 页 时 内 核 究 竟 怎 
样 进行 处 理 。 

调用 shmat () 国 数 来 “分 离 ” 由 IPC 标 识 符 所 指定 的 共享 内 存 区 域 ， 也 就 是 说 把 相应 的 
共享 内 存 区 域 从 进程 的 地 址 空间 中 删除 。 回 想 一 下 ，IPC 共享 内 存 资 产 是 持久 的 ; 即使 
现在 没有 进程 在 使 用 它 ， 相 应 的 页 也 不 能 被 丢弃 ， 但 是 可 以 被 换 出 。 


与 IJPC 资 源 的 其 他 类 型 一 样 ,为 了 避免 用 户 态 进程 过 分 使 用 内 存 , 也 有 一 些 限 制 施加 于 
所 允许 的 IPC 共享 内 存 区 域 数 ( 缺 省 为 4096)、 每 个 共享 段 的 大 小 ( 缺 省 为 32MB) 以 
及 所 有 共享 段 的 最 大 字 市 数 ( 缺 省 为 8GB), 不 过 , 系统 管理 员 照 样 可 以 调整 这 些 值 ， 这 
是 通过 分 别 修改 /proc/sys/kernel/shmmni, /proc/sys/kernel/shmmax /proc/sys/kernel/ 
shmall 文件 完成 的 。 
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图 19-3: 1IPC 共享 内 存 数据 结构 


图 19-3 显 示 与 IPC 共 享 内 存 区 相关 的 数据 结构 。shnm_ias 变 量 存放 IPC 共 享 内 存 资源 类 
型 ipc_iqs 的 数据 结构 ， 相 应 的 ipc_ia_ary 数据 结构 包含 一 个 指向 shmid_kernel 数 
据 结构 的 指针 数组 ， 每 个 IPC 共 享 内 存 资 源 对 应 一 个 数组 元 素 。 从 形式 上 看 ， 这 个 数组 
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存放 指 问 kern_ipc_perm 数 据 结构 指 针 , 但 是 每 个 这 样 的 结构 只 不 过 是 msg_queue 数 据 
结构 的 第 一 个 字段 。shmid_kernel 数据 结构 的 所 有 字段 如 表 19-14 所 示 。 


表 19-14: 在 shmid_kernel 数据 结构 中 的 字段 


类 型 字段 说 明 

struct kern_ipc_perm shm perm kern_ipc_perm 数据 结构 
struct file * shm_ file 共享 段 的 特殊 文件 

int id 共享 段 的 位 置 索引 
unsigned long shm nattch 当前 附加 的 内 存 区 数 
unsigned long shm_ segsz 内 存 区 字 节 数 

long shm_ atime 最 后 访问 时 间 

long shm_ dt ime 最 后 分 离 时 间 

long shm_ctime 最 后 修改 时 间 

int shm cprid 创建 者 的 PID 

int shm_lpriqd 最 后 访 上 加 进程 的 PID 
struct user struct * mlock_user 锁定 在 共享 内 存 RAM 中 的 用 户 


的 user_struct 描述 符 的 指针 
(参见 第 三 章 “clone()、forkO 及 
vfork() 系 统 调用 ”一 节 ) 


最 重要 的 字段 是 shm_file, 该 字段 存放 文件 对 象 的 地 址 。 这 反映 Linux 2.6 中 IPC 共享 
内 存 与 YFS 的 紧密 结合 。 具 体 来 说 , 每 个 IPC 共 享 内 存 区 与 属于 shm 特 殊 文 件 系 统 的 一 
个 普通 文件 相关 联 (参见 第 十 二 章 “ 特 殊 文件 系统 ”一 节 )。 


因为 shm 文 件 系 统 在 系统 目录 树 中 没有 安装 点 , 因此 , 用 户 不 能 通过 普通 的 VFS 系统 调 
用 打开 并 访问 它 的 文件 。 但 是 ， 只 要 进程 “附加 ”一 个 内 存 段 ,内核 就 调用 do_mmap ()， 
并 在 进程 的 地 址 空间 创建 文件 的 一 个 新 的 共享 内 存 映射 。 因此 , 属于 shm 特殊 文件 系统 
的 文件 只 有 一 个 文件 对 象 方法 mmap ， 该 方法 是 由 shm_mmap () 函数 实现 的 。 


如 图 19-3 所 示 ， 与 IPC 共享 内 存 区 对 应 的 内 存 区 是 用 vm_area_struct 对 象 描 述 的 〈 参 
见 第 十 六 章 “ 内 存 映射 ” 一 节 )，; 它 的 vm_file 字 段 指 回 特殊 文件 的 文件 对 象 ， 而 特殊 文 
件 又 依次 引用 目录 项 对 象 和 索引 节点 对 象 。 存放 在 索引 节点 i_ino 字 上 段 的 索引 市 点 号 实 
际 上 是 IPC 共 享 内 存 区 的 位 置 索 引 , 因此 ,索引 节点 对 象 间接 引用 shmid_kexrnei 描 述 符 。 


同样 ， 对 于 任何 共享 内 存 映射 , 通过 address_space 对 象 把 页 框 包 含 在 页 高 速 缓存 中 ， 
而 address_space 对 象 包含 在 索引 节点 中 而 且 被 索引 节点 的 i_mapping 字 段 引 用 (你 也 
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可 以 参看 图 16-2)。 万 一 页 框 属于 IPC 共享 内 存 区 ，address_space 对象 的 方法 就 存放 
在 全 局 变量 shmem_aops 中 。 


换 出 IPC 共享 内 存 区 的 页 


内 核 在 把 包含 在 共享 内 存 区 的 页 换 出 时 一 定 要 谨慎 ,并 且 交 换 高 速 缓 存 的 作用 是 至 关 紧 
要 的 (这 个 主题 已 经 在 第 十 七 章 “ 交 换 高 速 缓存 ”一 市 讨论 过 )。 


因为 I PC 共享 内 存 区 上 映射 的 是 在 磁盘 上 没有 了 映像 的 特殊 索引 节点 , 因此 其 页 是 可 交换 的 
(而 不 是 可 同步 的 , 参见 第 十 七 章 的 表 17-1)。 因 此 为 了 回收 IPC 共享 内 存 区 的 页 ， 内 核 
必须 把 它 写 人 交换 区 。 因 为 IPC 共享 内 存 区 是 持久 的 一 一 也 就 是 说 即使 内 存 段 不 附加 
到 进程 ,也 必须 保留 这 些 页 。 因 此 即使 这 些 页 没有 进程 在 使 用 ， 内核 也 不 能 简单 地 删除 
它们 。 


让 我 们 看 看 PFRA 是 如 何 回收 IPC 共享 内 存 区 页 框 的 。 一 直到 shrink_list () 销 数 处 理 
页 之 前 ， 都 与 第 十 七 章 “ 内 存 紧缺 回收 ”一 布 所 描述 的 一 样 。 因 为 这 个 函数 并 不 为 IPC 
共享 内 存 区 域 作 任 何 检查 ,因此 它 会 调用 try_to_unmap() 函数 从 用 户 态 地 址 空间 删除 对 
页 框 的 每 个 引用 。 正 如 第 十 七 章 “ 反 向 映射 ”一 市 描 述 的 一 样 ， 相应 的 页 表 项 就 被 删除 。 


然后 ，shrink_list() 销 数 检 查 页 的 PG_dirty 标志 ， 调 用 pageout ()( 当 IPC 共享 内 
存 区 域 的 页 框 在 分 配 时 总 是 被 标记 为 脏 ， 因 此 pageout () 总 是 被 调用 ) 。 而 pageout () 
国 数 又 调用 所 映射 文件 的 adqdqress_space 对 象 的 writepage 方 法 。 


shmem_writepage() 国 数 实 现 了 IPC 共 享 内 存 区 页 的 writepage 方 法 。 它 实际 上 给 交换 
区 域 分 配 一 个 新 页 槽 (page slot) ， 然 后 将 它 从 页 高 速 缓存 移 到 交换 高 速 缓存 (实际 上 
就 是 改变 页 所 有 者 的 adqdqress_space 对 象 )。 该 国 数 还 在 shmem_inode_info 结 构 中 存 
帮 换 出 页 页 标识 符 ， 这 个 结构 包含 了 IPC 共 享 内 存 区 的 索引 节点 对 象 ， 它 再 次 设置 页 的 
PG_dirty 标志 。 如 第 十 七 章 的 表 17-5 所 示 ,shrink_liskc() 国 数 检查 PG_dirty 标志 ， 
并 通过 把 页 留 在 非 活 动 链表 而 中 断 回 收 过 程 。 

迟早 ，PFRA 还 会 处 理 该 页 框 。shrink_list () 又 一 次 调用 pageout () 堂 试 将 页 刷新 到 
磁盘 。 但 这 一 次 ， 页 已 在 交换 高 速 缓 存 内 ， 因 而 它 的 所 有 者 是 交换 子 系统 的 
address_space 对 象 , 即 swapper_space。 相 应 的 writepage 方 法 swap_writepage() 
开始 有 效 地 向 交换 区 进行 写 人 操作 (参见 第 十 七 章 “ 换 出 页 ”一 世 )。 一 旦 pageout () 
结束 ,shrink_list() 确 认 该 页 已 干净 ,于 是 从 交换 高 速 缓 存 有 删除 页 并 释放 给 伙伴 系统 。 


IPC 共享 内 存 区 的 请 求 调 页 
通过 shmat () 加 入 进程 的 页 都 是 哑 元 页 (dummy page)， 该 函数 把 一 个 新 内 存 区 加 入 一 
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个 进程 的 地 址 空间 中 ,但 是 它 不 修改 该 进程 的 页 表 。 此 外 ， 我 们 已 经 看 到 ，IPC 共享 内 
存 区 的 页 可 以 被 换 出 。 因 此 ， 可 以 通过 请 求 调 页 机 制 来 处 理 这 些 页 。 


我 们 知道 ， 当 进程 试图 访问 IPC 共享 内 存 区 的 一 个 单元 , 而 其 基本 的 页 框 还 没有 分 配 时 
则 发 生 人 缺 页 异常 。 相 应 的 异常 处 理 程序 确定 引起 缺 页 的 地 址 是 在 进程 的 地 址 空间 内 , 且 
相应 的 页 表 项 为 空 ， 因此 ， 它 就 调用 ao_no_page() 国 数 (参见 第 九 章 中 的 “请 求 调 页 ” 
一 节 ) 。 这 个 国 数 又 检查 是 否 为 这 个 内 存 区 定义 了 nopage 方 法 。 然 后 调用 这 个 方法 ,并 
把 页 表 项 设置 成 所 返回 的 地 址 (参见 第 十 六 章 “内 存 映射 的 请 求 调 页 ”一 节 )。 

IPC 共享 内 存 所 使 用 的 内 存 区 通常 都 定义 了 nopage 方 法 。 这 是 通过 shmem_nopage() 轨 
数 实 现 的 ， 该 函数 执行 以 下 操作 


1].， 遍历 VEFS 对 象 的 指针 链表 ， 并 导出 IPC 共享 内 存 资 源 的 索引 节点 对 象 的 地 址 ( 参 
见 图 19-3) 。 

2. 从 内 存 区 域 描述 符 的 vm_start 字段 和 请 求 的 地 址 计算 共享 段 内 的 逻辑 页 号 。 

3. ”检查 页 是 否 已 经 在 交换 高 速 缓存 中 ， 如 果 是 ， 则 结束 并 返回 该 描述 符 的 地 址 。 


4. ”检查 页 是 否 在 交换 高 速 缓 存 内 且 是 耕 最 新 ， 如 果 是 ， 则 结束 并 返回 该 描述 符 的 地 
址 。 


5.， ”检查 内 人 嵌 在 索引 节点 对 象 的 shmem_inode_info 是 否 存 放 着 逻辑 页 号 对 应 的 换 出 页 
标识 符 。 如 果 是 ， 就 调用 read_swap_cache_async() 执 行 换 入 操作 (参见 第 十 七 章 
“ 换 入 页 ”一 节 )，、 并 一 直 等 到 数据 传送 完成 ， 然 后 结束 并 返回 页 描述 符 的 地 址 。 

6. 人 否则, 页 不 在 交换 区 中 因此 就 从 伙伴 系统 分 配 一 个 新 页 框 , 把 它 播 入 页 高 速 缓存 ， 
并 返回 它 的 地 址 。 


do_no_page () 图 数 对 引起 缺 页 的 地 址 在 进程 的 页 表 中 所 对 应 的 表 项 进行 设置 ， 以 使 该 
函数 指向 nopage 方法 所 返回 的 页 框 。 


POSIX 消息 队列 


POSIX 标准 (IEEE Std 1003.1-2001) 基于 消息 队列 定义 了 一 个 IPC 机制 ， 就 是 大 家 知 
道 的 POSIX 消息 队列 。 它 很 像 本 章 前 面 “IPC 消息 ”一 节 介 绍 的 System V IPC 消息 队 
列 。 但 是 POSIX 消息 队列 比 老 的 队列 具有 许多 优 反 : 

。 ”更 简单 的 基于 文件 的 应 用 接口 

。 ”完全 支持 消息 优先 级 〈 优 先 级 最 终 决定 队列 中 消息 的 位 置 ) 
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。 ”完全 支持 消息 到 达 的 异步 通知 ， 这 通过 信号 或 是 线程 创建 实现 
。 ”用 于 阻塞 发 送 与 接收 操作 的 超时 机 制 


POSIX 消息 队列 通过 一 套 库 销 数 来 实现 ， 参 见 表 19-15。 
表 19-15: POSIX 消息 队列 的 库 函 数 


函数 名 说 明 

mdq_open () 打开 (或 创建 ) POSIX 消息 队列 

mq_close() 关闭 POSIX 消息 队列 (并 不 删除 ) 

mq_unlink () 删除 POSIX 消息 队列 

mcL_send ( ) 给 POSIX 消息 队列 发 送 一 个 消息 

mq_timedsend () 在 操作 时 限 内 给 POSIX 消息 队列 发 送 一 个 消息 

mq_receive () 从 POSIX 消息 队列 接收 一 个 消息 

mq timedreceive!() 在 操作 时 限 内 从 POSIX 消息 队列 接收 一 个 消息 

mq _ notify () 在 空 POSIX 消息 队列 中 ， 为 消息 到 达 建 立 异 步 通知 机 制 | 

mcL_getattr () 获得 POSIX 消息 队列 的 属性 (实际 上 就 是 发 送 和 接收 操作 应 
当 是 阻塞 还 是 非 阻 塞 ) 

mq_setattr() 设置 POSIX 消息 队列 的 属性 (实际 上 就 是 发 送 和 接收 操作 应 
当 是 阻塞 还 是 非 阻 塞 ) 


我 们 来 看 看 应 用 如 何 典 型 地 使 用 这 些 困 数 。 首先, 应 用 调用 mq_open() 库 函数 打开 一 个 
POSIX 消息 队列 。 函数 的 第 一 个 参数 是 一 个 指定 队列 名 字 的 字符 串 ， 这 与 文件 名 类 似 ， 
而 且 必 须 以 “/” 开 始 。 该 库 范 数 接收 一 个 open () 系统 调用 的 标志 子 集 : O_RDONLY、 
O_WRONLY、O_RDWR、O_CREAT、O_EXCL 和 0O._NONBLOCK (用 于 非 阻 塞 发 送 与 接 
收 )。 注 意 应 用 可 以 通过 指定 一 个 0_CREAT 标志 来 创建 一 个 新 的 POSIX 消息 队列 。 
mq_open () 国 数 返回 一 个 队列 描述 符 , 与 open() 系 统 调用 返回 的 文件 描述 符 非常 类 似 。 


一 旦 POSIX 消息 队列 打开 ， 应 用 可 以 通过 库 国 数 ma_send() 和 maq_receive() 来 发 送 
与 接收 消息 , 并 传 给 它们 mq_open() 返 回 的 队列 描述 符 作为 参数 。 应 用 也 可 以 通过 
mq_timedsend() 和 mq_timedreceive() 指 定 应 用 程序 等 待 发 送 与 接收 操作 完成 所 需 的 
最 长 时 间 。 


应 用 除了 在 mq_receive() 上 阻塞 , 或 者 如 果 O_NONBLOCK 标 志 置 位 则 继续 在 消息 队列 
上 轮 询 外 , 还 可 以 通过 执行 mq_notify() 库 国 数 建立 异步 通知 机 制 。 实 际 上 当 一 个 消息 
插入 空 队 列 时 ， 应 用 可 以 要 求 : 要 么 给 指定 进程 发 出 信号 ， 要 么 创建 一 个 新 线程 。 
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最 后 ， 当 应 用 使 用 完 消 息 队 列 ， 它 调用 mq_close() 库 函数 ， 传 给 它 队 列 描述 符 。 注 意 
这 个 国 数 并 不 删除 队列 , 这 与 close () 系 统 调用 不 会 删除 文件 一 样 。 要 删除 队列 ， 应 用 
需要 调用 ma_unlinkft) 国 数 。 


在 Linux 2.6 中 ，POSIX 消息 队列 的 实现 是 简单 的 。 已 经 引入 了 一 个 叫做 mqueue 的 特 
殊 文 件 系 统 (参见 第 十 二 章 “ 特 殊 文 件 系统 ”一 节 )， 每 个 现存 队列 在 其 中 都 有 一 个 相 
应 的 索引 节点 。 内 核 提 供 了 几 个 系统 调用 : mq_open()、mq_unlink().、 
mq_timedsend()、mq_timedreceive()、mq_notify() 和 mq _getsetattr()。 这 些 系 
统 调用 大 略 对 应 前 面 表 19-15$ 中 的 库 国 数 。 这 些 系统 调用 透明 地 对 mgqgueue 文 件 系统 的 文 
件 进 行 操作 ， 而 大 部 分 工作 交 由 VFS 层 处 理 。 例 如 ,注意 到 内 核 不 提供 ma_close() 图 
数 ， 而 事实 上 返回 给 应 用 的 队列 描述 符 实际 上 是 一 个 文件 描述 符 ， 因 此 maL_close () 的 
工作 由 close () 系 统 调用 来 做 就 可 以 了 。 


mqueue 特 殊 文 件 系 统 不 能 安装 在 系统 目录 树 中 。 但 是 如 果 安 装 了 ,用 户 可 以 通过 使 用 文 
件 系统 根 目 录 中 的 文件 来 创建 POSIX 消 息 队 列 ,也 可 以 读 入 相应 文件 来 得 到 队列 的 有 关 
信息 。 最 后 ， 应 用 可 以 使 用 select () 和 poll() 获 得 队列 状态 变化 的 通知 。 


每 个 队列 有 一 个 mqueue_inode_info 摘 述 符 ， 它 包含 有 inode 对 象 ， 该 对 象 与 mqueue 
特殊 文件 系统 的 一 个 文件 相对 应 。 当 POSIX 消 息 队 列 系统 调用 接收 一 个 队列 描述 符 作 为 
参数 时 ， 它 就 调用 VFS 的 fget () 畏 数 计算 出 对 应 文件 对 象 的 地 址 。 然 后 ， 系 统 调 用 得 
到 mgueue 文件 系统 中 文件 的 索引 节点 对 象 。 最 后 ， 就 可 以 得 到 该 索引 节点 对 象 所 对 应 
的 mqueue_inode_info 描 述 符 地 址 。 


队列 中 挂 起 的 消息 被 收集 到 mqueue_inode_info 描 述 符 中 的 一 个 单 向 链表 ,每 个 消息 由 
一 个 msg_msg 类 型 的 摘 述 符 来 表示 ,这 与 System V IPC 中 使 用 的 消息 接 述 符 是 完全 一 
样 的 (参见 本 章 前 面 “IPC 消息 ”一 节 )。 


第 二 十 章 


程序 的 执行 





第 三 章 所 描述 的 “进程 ”概念 在 Unix 中 是 用 来 表示 正在 运行 的 一 组 程序 竞争 系统 资源 的 
行为 。 本 章 作 为 最 后 的 一 章 , 将 集中 讨论 程序 和 进程 之 间 的 关系 。 我们 会 专门 描述 内 核 
如 何 通 过 程序 文件 的 内 容 建立 进程 的 执行 上 下 文 。 尽 管 把 一 组 指令 装 和 内存 并 让 CPU 执 
行 看 起 来 并 不 是 什么 大 问题 ， 但 内 核 还 必须 灵活 处 理 以 下 几 方 面 的 问题 : 


不 同 的 可 执行 文件 格式 
Linux 的 出 色 表 现 之 一 就 是 能 执行 为 其 他 操作 系统 编译 的 二 进 制 代 码 。 具 体 地 说 ， 
Linux 可 以 在 64 位 版 本 的 机 器 上 执行 32 位 可 执行 代码 。 例 如 ， 在 Pentium 上 创建 
的 可 执行 代码 可 以 在 64 位 的 AMD Opteron CPU 平台 上 运行 。 

共享 库 


很 多 可 执行 文件 并 不 包含 执行 程序 所 需 的 所 有 代码 ,而 是 期 望 内 核 在 运行 时 从 共享 
库 中 加 载 函 数 。 


执行 上 下 文 有 的 其 他 信息 
这 包括 程序 员 熟 悉 的 命令 行 参数 与 环境 变量 。 


程序 是 以 可 执行 文件 (executable file) 的 形式 存放 在 磁盘 上 的 , 可 执行 文件 既 包 括 被 执 
行 函 数 的 目标 代码 , 也 包括 这 些 国 数 所 使 用 的 数据 。 程序 中 的 很 多 函数 是 所 有 程序 员 都 
可 使 用 的 服务 例 程 ， 它们 的 目标 代码 包含 在 所 谓 “ 库 ”的 特殊 文件 中 。 实 际 上 , 一 个 库 
函数 的 代码 或 被 静态 地 拷贝 到 可 执行 文件 中 (静态 库 )， 或 在 运行 时 被 连接 到 进程 ( 共 
享 库 ， 因 为 它们 的 代码 由 很 多 独立 的 进程 所 共享 )。 


当 装 入 并 运行 一 个 程序 时 ， 用 户 可 以 提供 影响 程序 执行 方式 的 两 种 信息 : 命令 行 参数 和 
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环境 变量 。 用 户 在 shell 提示 符 下 紧 跟 文件 名 输入 的 就 是 命令 行 参数 。 环 境 变量 (例如 
HOME 和 PATH) 是 从 shell 继 承 来 的 , 但 用 户 在 装 和 人 并 运行 程序 前 可 以 修改 任何 环境 变量 。 


我 们 在 “可 执行 文件 ”一 节 将 解释 一 个 程序 的 执行 上 下 文 到 底 是 什么 。 在 “可 执行 格式 ” 
一 节 我 们 会 提 及 一 些 Linux 所 支持 的 可 执行 格式 , 并 说 明 Linux 如 何 改变 它 的 “个 性 ”以 
执行 其 他 操作 系统 所 编译 的 程序 。 最 后 , 在 “exec 消 数 ”一 节 会 描述 执行 一 个 新 程序 的 
进程 所 需 的 系统 调用 。 


可 执行 文件 


在 第 一 章 中 我 们 把 进程 定义 为 “执行 上 下 文 "。 这 就 意味 着 进行 特定 的 计算 需要 收集 必 
要 的 信息 ,包括 所 访问 的 页 ， 打开 的 文件 , 硬件 寄存 器 的 内 容 等 等 。 可 执行 文件 是 一 个 
普通 文件 ， 它 描述 了 如 何 初 始 化 一 个 新 的 执行 上 下 文 ， 也 就 是 如 何 开 始 一 个 新 的 计算 。 


假定 一 位 用 户 想 在 当前 目录 下 显示 文件 ,他 知道 在 shell 提 示 符 下 只 要 简单 地 敲 入 外 部 命 
令 /bin/ls ( 注 1) 就 可 得 到 这 个 结果 。 命 令 shell 创建 一 个 新 进程 ， 新 进程 又 调用 系统 调 
用 execve() (参看 本 章 后 面 的 “exec 函数 ”一 节 )， 其 中 传递 的 一 个 参数 就 是 1s 可 执 
行文 件 的 全 路 径 名 , 在 本 例 中 即 /bin/ls。sys_execve() 服 务 例 程 找到 相应 的 文件 , 检查 
可 执行 格式 ,并 根据 存放 在 其 中 的 信息 修改 当前 进程 的 执行 上 下 文 。 因 此 ， 当 这 个 系统 
调用 终止 时 ， 新 进程 开始 执行 存放 在 可 执行 文件 中 的 代码 ， 也 就 是 执行 目录 显示 。 


当 进 程 开 始 执行 一 个 新 程序 时 , 它 的 执行 上 下 文 发 生 很 大 的 变化 , 这 是 因为 在 进程 的 前 
一 个 计算 执行 期 间 所 获得 的 大 部 分 资源 会 被 抛弃 。 在 前 面 的 例子 中 ， 当 进程 开始 执行 
/bin/ls 时， 它 用 execve () 系 统 调 用 传递 来 的 新 参数 代替 shell 的 参数 ， 并 获得 一 个 新 的 
shell 环境 (参见 后 面 的 “命令 行 参数 和 shell 环 境 ” 一 节 )， 从 父 进程 继承 的 所 有 页 (并 
通过 写 时 复制 机 制 实现 共享 ) 被 释放 , 以 便 在 一 个 新 的 用 户 态 地 址 空间 开始 执行 新 的 计 
算 ， 甚至 进程 的 特权 都 可 能 改变 (参看 后 面 的 “进程 的 信任 状 和 权能 ”一 节 )。 然 而 , 进 
程 的 PID 不 改变 , 并 且 新 的 计算 从 前 一 个 计算 继承 所 有 打开 的 文件 描述 符 , 当然 这 些 文 
件 摘 述 符 是 在 执行 execve () 系统 调用 时 还 没有 自动 关闭 的 描述 符 ( 注 2)。 


注 1 : 在 Linux 中 ， 可 执行 文件 的 路 径 不 是 固定 的 ， 这 取决 于 所 使 用 的 发 布 版 本 。 对 于 所 有 的 
Unix 系 统 , 已 经 提议 了 几 个 标准 的 命名 模式 , 如 FHS (F. lesystem Hierarchy standard)，。 

注 2: 默认 情况 下 , 在 发 出 execve() 和 了 系统 调用 后 由 进程 已 经 打开 的 文件 仍然 是 打开 的 。 但 是 ， 
如 果 进 程 把 files_struct 结 构 的 close_on exec 字 息 的 相应 位 置 置 位 ， 则 文件 自动 关 
闭 (参见 第 十 二 章 的 表 12-7); 这 是 通过 fcntl() 系 统 完 成 的 。 
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进程 的 信任 状 和 权能 

从 传统 上 看 ，Unix 系统 与 每 个 进程 的 一 些 信任 状 (credential) 相关 ， 信 任 状 把 进程 与 
一 个 特定 的 用 户 或 用 户 组 捆绑 在 一 起 。 信 任 状 在 多 用 户 系统 上 尤为 重要 ,因为 信任 状 可 
以 决定 每 个 进程 能 做 什么 ， 不 能 做 什么 ， 这 样 既 保证 了 每 个 用 户 的 个 人 数据 的 完整 性 ， 
也 保证 了 系统 整体 上 的 稳定 性 。 


信任 状 的 使 用 既 需 要 在 进程 的 数据 结构 方面 给 予 支持 ,也 需要 在 被 保护 的 资源 方面 给 予 
支持 。 文件 就 是 一 种 显而易见 的 资源 。 因 此 , 在 Ext2 文 件 系统 中 , 每 个 文件 都 属于 一 个 
特定 的 用 户 , 并 被 捆绑 于 某 个 用 户 组 ,文件 的 拥有 者 可 以 决定 对 某 个 文件 允许 哪些 操作 ， 
以 在 文件 的 拥有 者 、 文 件 的 用 户 组 及 其 他 所 有 用 户 之 间 做 出 区 别 。 当 某 个 进程 试图 访问 
一 个 文件 时 , YFS 总 是 根据 文件 的 拥有 者 和 进程 的 信任 状 所 建立 的 许可 权 检 查访 问 的 合 
法 性 。 


进程 的 信任 状 存放 在 进程 描述 符 的 几 个 字段 中 , 如 表 20-1 所 示 。 这 些 字 段 包括 系统 中 用 
户 和 用 户 组 的 标识 符 , 与 之 可 以 相 比 较 的 通常 是 存放 在 所 访问 文件 索引 节点 中 的 标识 符 。 


表 20-1; 传统 的 进程 信任 状 


名 字 说 明 

uid, gid 用 户 和 组 的 实际 标识 符 

euid, egid 用 户 和 组 的 有 效 标识 符 

fsuid, fsgid 文件 访问 的 用 户 和 组 的 有 效 标识 符 
groups 补充 的 组 标识 符 

suid, sgid 用 户 和 组 保存 的 标识 符 


值 为 0 的 UID 指定 给 root 超 级 用 户 , 而 值 为 0 的 用 户 GID 指定 给 root 超 级 组 。 只 要 有 关 
进程 的 信任 状 存放 了 一 个 零 值 , 则 内 核 将 放弃 权限 检查 ,始终 允许 这 个 进程 做 任何 事情 ， 
如 涉及 系统 管理 或 硬件 处 理 的 那些 操作 ， 而 这 些 操 作对 于 非特 权 进 程 是 不 允许 的 。 


当 一 个 进程 被 创建 时 ， 总 是 继承 父 进程 的 信任 状 。 不 过 ， 这 些 信 任 状 以 后 可 以 被 修改 ， 
这 发 生 在 当 进 程 开 始 执行 一 个 新 程序 时 , 或 者 当 进 程 发 出 合适 的 系统 调用 时 。 通常 情况 
下 ， 进 程 的 uid、euid、fsuiG 及 suid 字 段 具 有 相同 的 值 。 然 而 ， 当 进程 执行 setuia 
程序 时 ， 即 可 执行 文件 的 setuid 标 志 被 设置 时 ，euida 和 fsuid 字 段 被 置 为 这 个 文件 拥 
有 者 的 标识 符 。 几 平 所 有 的 检查 都 涉及 这 两 个 字段 中 的 一 个 : fsuid 用 于 与 文件 相关 的 
操作 , 而 euid 用 于 其 他 所 有 的 操作 。 这 也 同样 适用 于 组 标识 符 的 gid、egid、fsgia 及 
sgidq 字 段 。 
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我 们 用 一 个 例子 来 说 明 如 何 使 用 fsuid 字 段 , 考虑 一 下 当 用 户 想 改变 她 的 口令 时 的 典型 
情况 。 所 有 的 口令 都 存放 在 一 个 公共 文件 中 , 但 用 户 不 能 直接 编辑 这 样 的 文件 ,因为 它 
是 受 保护 的 。 因 此 ， 用 户 调 用 一 个 名 为 /usr/bin/passwd 的 系统 程序 ， 它 可 以 设置 setuid 
标志 ， 而 且 它 的 拥有 者 是 超级 用 户 。 当 shell 创建 的 进程 执行 这 样 一 个 程序 时 ， 进 程 的 
euid 和 fsuid 字 段 被 置 为 0， 即 超级 用 户 的 PID。 现 在 ， 这 个 进程 可 以 访问 这 个 文件 ， 
因为 当 内 核 执 行 访问 控制 表 时 在 fsuid 字 段 发 现 了 值 0。 当 然 , usr/bin/passwd 程 序 除 了 
让 用 户 改变 自己 的 口令 外 ， 并 不 允许 做 其 他 任何 事情 。 


从 Unix 的 历史 发 展 可 以 得 出 一 个 教训 , 即 sertuid 程 序 是 相当 危险 的 : 恶意 用 户 可 以 以 这 
样 的 方式 触发 代码 中 的 一 些 编程 错误 (bug) ， 从 而 强迫 setuid 程 序 执行 程序 的 最 初 设计 
者 从 未 安排 的 操作 。 这 可 能 常常 危及 整个 系统 的 安全 。 为 了 减少 这 样 的 风险 ，Linux 与 
所 有 现代 Unix 操 作 系 统一 样 , 让 进程 只 有 在 必要 时 才 获 得 seruid 特 权 , 并 在 不 需要 时 取 
消 它 们 。 可 以 证 明 ， 当 以 几 个 保护 级 别 实现 用 户 应 用 程序 时 ,这 种 特点 是 很 有 用 的 。 进 
程 描述 符 包含 一 个 suid 字 段 ， 在 setuid 程序 执行 以 后 在 该 字段 中 正好 存放 有 效 标识 符 
(euid 和 fsuid) 的 值 。 进 程 可 以 通过 setuid()、，setresuid()、setfsuid(}) 和 和 
setreuid() 系 统 调用 改变 有 效 标识 符 ( 注 3)。 


表 20-2 显 示 了 这 些 系 统 调用 是 怎样 影响 进程 的 信任 状 的 。 请 注意 , 如 采 调 用 进程 还 没有 
超级 用 户 特权 ， 即 它 的 euid 字段 不 为 0, 那么 ， 只 能 用 这 些 系 统 调用 来 设置 在 这 个 进程 
的 信任 状 字段 已 经 有 的 值 。 例 如, 一 个 普通 用 户 进 程 可 以 通过 调用 系统 调用 setfsuid() 强 
迫 它 的 fsuid 值 为 500, 但 这 只 有 在 其 他 信任 状 字 段 中 有 一 个 字段 已 经 有 相同 的 值 500 时 
才 行 。 


表 20-2: 设置 进程 信任 状 的 系统 调用 语义 











字段 seturd (e) setresuid (u,e,s) | setreuid (u,e) | setfsuid (f) 
euid 0 

uida 不 改变 设置 为 u 设置 为 u 不 改变 

euid 设置 为 e 设置 为 e 设置 为 e 不 改变 

fsuid | 设置 为 e 设置 为 e | 设置 为 e 设置 为 e 设置 为 f 
不 改变 设置 为 s 设置 为 e 不 改变 








为 了 理解 四 个 用 户 ID 字 段 之 间 的 复杂 关系 ,让 我 们 考虑 一 下 setuigd() 系 统 调用 的 效果 。 


注 3: 通过 发 出 相应 的 setgid()、setresgid()、setfsgida() 和 setregid{) 系 统 调 用 、 可 以 
改变 组 的 有 歼 信任 装 。 
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这 些 操 作 是 不 同 的 ， 这 取决 于 调用 者 进程 的 euig 字段 是 否 被 置 为 0 ( 即 进程 有 超级 用 
户 特权 ) 或 被 置 为 一 个 正常 的 UID。 


如 果 euid 字 段 为 0， 这 个 系统 调用 就 把 调用 进程 的 所 有 信任 状 字 段 (uid、euid、fsuigq 
及 suid) 置 为 参数 e 的 值 。 超 级 用 户 进程 因此 就 可 以 删除 自己 的 特权 而 变 为 由 普通 用 户 
拥有 的 一 个 进程 。 例 如 ， 在 用 户 登 录 时 ， 系 统 以 超级 用 户 特 权 创 建 一 个 新 进程 ， 但 这 个 
进程 通过 调用 setuid() 系 统 调用 删除 自己 的 特权 , 然后 开始 执行 用 户 的 iogin shel] 程 序 。 


如 果 euida 字 段 不 为 0， 那 么 这 个 系统 调用 只 修改 存放 在 euida 和 fsuid 中 的 值 ， 让 其 
他 两 个 字段 保持 不 变 。 当 运行 setuid 程 序 来 提高 和 降低 进程 有 效 权限 时 (这些 权 限 存 放 
在 euid 和 fsuid 字 段 )， 该 系统 调用 的 这 种 功能 是 非常 有 用 的 。 


进程 的 权能 
POSIX.le 草案 ( 现 已 撤销 ) 用 “权能 (capability)” 一 词 引 和 人 进程 信任 状 的 另 一 种 模 
型 。Linux 内 核 支持 POSIX 权能 ， 但 是 大 部 分 Linux 的 发 行 版 本 不 用 它 。 


一 种 权能 仅仅 是 一 个 标志 , 它 表 明 是 否 人 允许 进程 执行 一 个 特定 的 操作 或 一 组 特定 的 操作 。 
这 个 模型 不 同 于 传统 的 “超级 用 户 VS 普通 用 户 ” 模 型 ， 在 后 一 种 模型 中 ， 一 个 进程 要 
么 能 做 任何 事情 , 要 么 什么 也 不 能 做 , 这 取决 于 它 的 有 效 UID。 如 表 20-3 所 示 , 在 Linux 
内 核 中 已 包含 了 很 多 权能 。 


表 20-3，Linux 的 权能 


名 字 

CAP_AUDIT_ WRITE 
CAP_AUDIT_CONTROL 
CAP_CHOWN 
CAP_DAC_OVERRIDE 
CAP_DAC_READ_SEARCH 
CAP_FOWNER 

CAP -TSETLD 
CAP_KILL 
CAP_LINUX_IMMUTABLE 
CAP_IPC_LOCK 
CAP_IPC_OWNER 


CAP_LEASE 





说 明 

通过 在 netlink 套 接 字 进行 写 人 而 产生 审计 消息 
通过 netlink 套 接 字 控 制 内 核 审 计 操 作 
忽略 对 文件 和 组 的 拥有 者 进行 改变 的 限制 
忽略 文件 的 访问 许可 权 

忽略 文件 / 目录 读 和 搜索 的 许可 权 

一 般 是 忽略 对 文件 拥有 者 的 权限 检查 
忽略 对 文件 setid 和 sef8id 标 志 设 置 的 限制 
产生 信号 时 绕 过 权限 检查 

允许 修改 仅 追 加 和 不 可 变 的 Ext2/Ext3 文件 
允许 页 加 锁 和 共享 内 存 段 加 锁 

跳 过 IPC 拥有 者 检查 


允许 对 文件 进行 租借 (参看 第 十 二 章 “Linux 文件 加 销 ” 1) 
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表 20-3: Linux 的 权能 ( 续 ) 

名 字 说 明 

允许 有 特权 的 mknod{) 操 作 
允许 一 般 的 联网 管理 
CAP_NET_BIND_SERVICE 人 允许 绑 定 到 低 于 1024 的 TCP/UDP 套 接 字 


CAP_MKNOD 


CAP_NET_ADMIN 


CAP_NET_BROAD_AST ” 允许 广播 与 组 播 

CAP_NET_RAW 人 允许 使 用 RAW 和 PACKET 套 接 字 
CR SETGOTD 忽略 对 组 进程 信任 状 操作 的 限制 
CAP_SETPCAP 允许 对 其 他 进程 进行 权能 操作 

CAb SETVITD 忽略 对 用 户 进 程 信任 状 操作 的 限制 


CAP_SYS_ADMIN 


人 有 FS 二 BOOJy 


允许 一 般 的 系统 管理 
允许 使 用 repoot () 


CAP_SYS_CHROOT 允许 使 用 chroot () 

CAP_SYS_MODULE. 允许 内 核 模块 的 插入 和 删除 

CAP_SYS_NICE 跳 过 nice(t) 和 setpriority () 系 统 调用 的 权限 检查 , 并 允许 创 
建 实时 进程 

CAP_SYS_PACCT 允许 配置 进程 的 记 账 

CAP_SYS_PTRACE 人 允许 对 任何 进程 使 用 ptrace() 

CAP_SYS_ RAWIO 人 允许 通过 ioperm() 和 iop1() 访 问 [/O 端口 

CAP_SYS_RESOURCE 允许 增加 资源 限制 

CAP .SYS TIVE 允许 系统 时 钟 和 实时 时 钟 的 操作 


CAP_SYS_TTY_CONFIG 人 允许 配置 终端 并 执行 vhangup () 系 统 调用 


权能 的 主要 优点 是 ,任何 时 候 每 个 进程 只 需要 有 限 种 权能 。 因 此 ， 即 使 有 恶意 的 用 户 发 
现 一 种 利用 有 带 在 错误 的 程序 的 方法 ， 他 也 只 能 非法 地 执行 有 限 个 操作 类 型 。 


例如 ， 假定 一 个 有 沫 在 错误 的 程序 只 有 CAP_SYS_TIME 权能。 在 这 种 情况 下 ， 利 用 其 错 
误 的 恶意 用 户 只 能 在 非法 地 改变 实时 时 钟 和 系统 时 钟 方面 获得 成 功 。 她 并 不 能 执行 任何 
其 他 特权 的 操作 。 


不 管 是 VEFS 还 是 Ext2 文件 系统 目前 都 不 支持 权能 模型 ， 所 以 ， 当 进程 执行 一 个 可 执行 
文件 时 ， 无 法 把 这 个 文件 与 本 该 强加 的 一 组 权能 联系 起 来 。 然 而 ， 进 程 可 以 分 别 用 
capget () 和 capset () 系 统 调用 显 式 地 获得 和 降低 它 的 权能 。 例 如 ， 完 全 可 以 通过 修改 
login 程序 只 保留 其 权能 的 一 个 子 集 而 删除 其 他 权能 。 
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事实 上 ，Linux 内 核 已 经 考虑 权能 。 例 如 ， 让 我 们 考虑 一 下 nice() 系 统 调用 , 它 允 许 用 
户 改变 进程 的 静态 优先 级 。 在 传统 的 模型 中 ， 只 有 超级 用 户 才 能 提升 一 个 优先 级 , 内 核 
因此 应 该 检查 调用 进程 描述 符 的 euia 字 段 是 否 为 0。 然 而 ，Linux 内 核定 义 了 一 个 名 为 
CAP_SYS_NICE 的 权能 ， 就 正好 对 应 着 这 种 操作 。 内 核 通过 调用 capable () 困 数 并 把 
CAP_SYS_NICE 值 传 给 这 个 函数 来 检查 这 个 标志 的 值 。 


正 是 由 于 一 些 “ 兼 容 性 小 巧 程序 ”已 被 加 入 到 内 核 代 码 中 , 这 种 方法 才 起 作用 。 每 当 一 个 
进程 把 euid 和 fsuid 字 段 设 置 为 0 时 (或 者 通过 调用 表 20-2 中 的 一 个 系统 调用 ， 或 者 通 
过 执行 超级 用 户 所 拥有 的 setuid 程序 ) ， 内 核 就 设置 进程 的 所 有 权能 ， 以 便 使 所 有 的 检查 
成 功 。 类 似 地 ， 当 进程 把 euig 和 fsuid 字 7 段 重新 置 为 进程 拥有 者 的 实际 UID 时 ， 内核 检 
查 进 程 描述 符 中 的 keep_capabilities 标 志 , 并 在 该 标志 设置 时 删除 进程 的 所 有 权能 。 进 
程 可 以 调用 Linux 专 有 的 prct1 () 系 统 调用 来 设置 和 重新 设置 keep_capabilities 标 志 。 


Linux 安全 模块 框架 


在 Linux 2.6 中 ,权能 是 与 Linux 安全 模块 (LSM ) 框架 紧密 结合 在 一 起 的 。 简 单 地 说 ， 
LSM 框架 允许 开发 人 员 定 义 几 种 可 以 选择 的 内 核 安 全 模型 。 


每 个 安全 模型 是 由 一 组 安全 钧 (security hook) 实现 的 。 安 全 钩 是 由 内 核 调用 的 一 个 国 
数 ， 用 于 执行 与 安全 有 关 的 重要 操作 。 钓 函数 决定 一 个 操作 是 否 可 以 执行 。 


钧 负数 存放 在 security_operations 类 型 的 表 中 。 当 前 使 用 的 安全 模型 钩 表 地 址 存放 
在 security_ops 变 量 中 。 内 核 默认 使 用 qummy_security_ops 表 实现 最 小 安全 模型 。 表 
中 的 每 个 钩 函 数 实际 上 去 检查 相应 的 权能 (如 果 有 ) 是 否 人 允许 ， 否 则 无 条 件 返 回 0 (允许 
操作 ) 。 


例如 ， stime() 和 settimeofqay() 国 数 的 服务 例 程 在 改变 系统 日 期 时 间 之 前 调用 
settime 安 全 钧 。dqummy_security_ops 表 指向 相应 的 国 数 ， 而 该 国 数 约束 自己 去 检查 
当前 进程 是 否 有 CAP_SYS_TIME 的 权能 ,并 相应 地 返回 0 或 者 -EPERM。 


Linax 内 核 更 复杂 的 安全 模型 已 经 开发 出 来 。 一 个 广为人知 的 例子 是 由 美国 国家 安全 局 
开发 的 securlty_Enhanced Linux(SELinux)。 


H 令 行 参数 和 shell 环境 


当 用 户 键 入 一 个 命令 时 ,为 满足 这 个 请 求 而 装 入 的 程序 可 以 从 shell 接 收 一 些 命令 行 参 数 
(command-line argument)。 例 如 ， 当 用 户 键入 命令 : 


$ ls -1 /usr/bin 
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以 获得 在 /usr/bin 目录 下 的 全 部 文件 列表 时 ，shell 进程 创建 一 个 新 进程 执行 这 个 命令 。 
这 个 新 进程 装 入 [ins 可 执行 文件 。 在 这 样 做 的 过 程 中 ， 从 shell 继承 的 大 多 数 执 行 上 
下 文 被 丢弃 ， 但 三 个 单独 的 参数 1s、-1 和 /usr/bin 依然 保持 。 一 般 情况 下 ， 新 进程 可 
以 接收 任意 多 个 参数 。 


传递 命令 行 参数 的 约定 依赖 于 所 用 的 高 级 语言 。 在 C 语 言 中 ， 程 序 的 main() 国 数 把 传 
递 给 程序 的 参数 个 数 和 指向 字符 串 指 针 数 组 的 地 址 作为 参数 .下 列 原 型 形式 化 地 表示 了 
这 种 标准 格式 : 

int maintint argc, char *argv[j) 


再 回 到 前 面 的 例子 ， 当 /bin/ls 程 序 被 调用 时 ,argc 的 值 为 3，argv[0] 指 向 1s 字符 串 ， 
argv [1] 指 疝 -! 字 符 串 ,而 argv{21 指 向 /usr/bin 字符 串 。argv 数组 的 末尾 处 总 以 空 指 
针 来 标记 ， 因 此 ，argv[3] 为 NULL。 


在 C 语言 中 ， 传递 给 main() 函 数 的 第 三 个 可 选 参数 是 包含 环境 变量 的 参数 。 环 境 变 量 
用 来 定制 进程 的 执行 上 下 文 ， 由 此 为 用 户 或 其 他 进程 提供 通用 的 信息 , 或 者 允许 进程 在 
执行 execve () 系统 调用 的 过 程 中 保持 一 些 信 息 。 

为 了 使 用 环境 变量 ，main() 可 以 声明 如 下 


int mainl(int argc，char *argv[], char *envpl[]) 


envp 参数 指向 环境 串 的 指针 数组 ， 形 式 如 下 : 


VAR_NAME=something 


这 里 ，VAR_NAME 表示 一 个 环境 变量 的 名 字 ， 而 “=” 后 面 的 子 串 表 示 赋 给 变量 的 实际 
值 。envp 数组 的 结尾 用 一 个 空 指针 标记 ， 就 像 argv 数 组 。envp 数组 的 地 址 存放 在 C 
库 的 environ 全 局 变量 中 。 


命令 行 参数 和 环境 串 都 存放 在 用 户 态 堆栈 中 ， 正 好 位 于 返回 地 址 之 前 《参见 第 十 章 的 
参数 传递 ”一 市 )。 图 20-1 显 示 了 用 户 态 堆栈 的 底部 单元 。 注意, 环境 变量 位 于 栈 底 附 
近 正 好 在 一 个 0 长 整数 之 后 。 


库 


每 个 高 级 语言 的 源码 文件 都 是 经 过 几 个 步骤 才 转 化 为 目标 文件 的 , 目标 文件 中 包含 的 是 
汇编 语言 指令 的 机 事 代 码 ， 它 们 和 相应 的 高 级 语言 指令 对 应 。 目 标 文 件 并 不 能 被 执行 ， 
因为 它 不 包含 源 代 码 文件 所 用 的 全 局 外 部 符号 名 的 线性 地 址 (例如 库 函 数 或 同一 程序 中 
的 其 他 源 代 码 文件 ) 。 这 些 地址 的 分 配 或 解析 是 由 链接 程序 完成 的 ， 链 接 程序 把 程序 所 
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有 的 目标 文件 收集 起 来 并 构造 可 执行 文件 。 链接 程序 还 分 析 程 序 所 用 的 库 消 数 , 并 以 本 
草 后 面 所 描述 的 方式 把 它们 类 合成 可 执行 文件 。 


NULL PAGE OFFSET 
env_ end 


环境 字符 串 
env start 





arg end 
命令 行 参 数 
arg start 
动态 链接 程序 的 表 
argv| | &argv[o] 
argc 
。 start stack 
返回 地 址 
二 Stack top (esp) 


20-1: 用 户 态 堆栈 的 奔 部 单元 


大 多 数 程序 ， 甚 至 是 最 小 的 程序 都 会 利用 C 库 。 例 如 ， 请 看 下 面 只 有 一 行 的 C 程 序 ， 


VOld man(vold) 


尽管 这 个 程序 没有 做 任何 事情 ,但 还 是 需要 做 很 多 工作 来 建立 执行 环境 (参见 本 章 后 面 
的 “exec 函数 ”一 节 ), 并 在 程序 终止 时 杀 死 这 个 进程 (参见 第 三 章 的 “撤消 进程 ” 一 节 )。 
尤其 是 当 main() 函数 终止 时 ，C 编译 程序 把 exit_group() 函数 插入 到 目标 代码 中 。 


从 第 十 草 我 们 知道 ， 程 序 通常 通过 C 库 中 的 封装 例 程 调用 系统 调用 。C 编译 绒 亦 如 此 。 
任何 可 执行 文件 除了 包括 对 程序 的 语句 进行 编译 所 直接 产生 的 代码 外 , 还 包括 一 些 粘 
合 ” 代码 来 处 理 用 户 态 进程 与 内 核 之 则 的 交互 ,这样 的 粘 合 代码 有 一 部 分 存放 在 C 库 中 。 


除了 C 库 ，Unix 系统 中 还 包含 很 多 其 他 的 函数 库 。 一 般 的 Linux 系统 通常 就 有 几 百 个 不 
同 的 库 。 这 里 仅仅 列举 其 中 的 两 个 : 数学 库 libm 包含 浮 点 操作 的 基本 函数 ， 而 X11 库 
12X717 收集 了 所 有 XILI 窗 口 系统 图 形 接口 的 基本 底层 畏 数 。 


传统 Unix 系统 中 的 所 有 可 执行 文件 都 是 基于 静态 库 (static library) 的 。 这 就 意味 着 链 
接 程 序 所 产生 的 可 执行 文件 不 仅 包 括 原 程序 的 代码 ,还 包括 程序 所 ?引用 的 库 图 数 的 代码 。 
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静态 库 的 一 大 缺点 是 : 它们 占用 大 量 的 磁盘 空间 。 的确, 每 个 静态 链接 的 可 执行 文件 都 
复制 库 代 码 的 某 些 部 分 。 


现代 Unix 系统 利用 共享 库 (shared library)。 可 执行 文件 不 用 再 包含 库 的 目标 代码 ， 而 
仅仅 指向 库 名 。 当 程序 被 装 入 内 存 执行 时 ,一 个 名 为 动态 链接 器 (dynamic Linker, 也 叫 
ld.so) 的 程序 就 专注 于 分 析 可 执行 文件 中 的 库 名 ， 确 定 所 需 库 在 系统 目录 树 中 的 位 置 ， 
并 使 执行 进程 可 以 使 用 所 请 求 的 代码 。 进 程 也 可 以 使 用 alopen () 库 函数 在 运行 时 装 人 
额外 的 共享 库 。 


共享 库 对 提供 文件 内 存 映射 的 系统 尤为 方便 ,因为 它们 减少 了 执行 一 个 程序 所 需 的 主 内 
存量 。 当 动态 链接 程序 必须 把 某 一 共享 库 链 接 到 进程 时 ,并 不 拷贝 目标 代码 , 而 是 仅仅 
执行 一 个 内 存 映 射 , 把 库 文件 的 相关 部 分 映射 到 进程 的 地 址 空间 中 。 这 就 允许 共享 库 机 
颖 代码 所 在 的 页 框 被 使 用 同一 代码 的 所 有 进程 共享 。 显然， 如果 程 序 是 静态 链接 的 ， 那 
么 共享 是 不 可 能 的 。 


共享 库 也 有 一 些 缺 点 。 动态 链接 的 程序 启动 时 间 通 常 比 静 态 链接 的 程序 长 。 此 外 , 动态 
链接 的 程序 的 可 移植 性 也 不 如 静态 链接 的 好 ,因为 当 系统 中 所 包含 的 库 版 本 发 生变 化 时 ， 
动态 链接 的 程序 运行 时 就 可 能 出 现 问题 。 


用 户 可 以 始终 请 求 一 个 程序 被 静态 地 链接 。 例 如 ，GCC 编译 器 提供 一 static 选项 ， 即 告 
诉 链接 程序 使 用 静态 库 而 不 是 共享 库 。 


程序 段 和 进程 的 线性 区 


从 逻辑 上 说 ，Unix 程序 的 线性 地 址 空间 传统 上 被 划分 为 几 个 叫做 段 (segment) ( 注 4) 
的 区 旧 : 


正文 段 
包含 程序 的 可 执行 代码 。 


已 胡 始 化 数 瘤 眉 
包含 已 初始 化 的 数据 ,也 就 是 初 值 存放 在 可 执行 文件 中 的 所 有 静态 变量 和 全 局 变量 
(因为 程序 在 启动 时 必须 知道 它们 的 值 )。 

未 初 冀 化 数 握 恨 (bss 段 ) 
包含 未 初始 化 的 数据 , 也 就 是 初 值 没 有 存放 在 可 执行 文件 中 的 所 有 全 局 变量 (因为 
程序 在 引用 它们 之 前 才 赋 值 )， 历 史上 把 这 个 段 叫 做 bss 段 。 


注 4: “ 投 ” 这 个 术语 有 其 历史 根源 ， 因 为 第 一 个 Unix 系统 用 不 同 的 段 寄 存 器 实现 每 一 个 线性 
地 址 区 间 。 不 过 ，Linux 并 不 利用 80x86 微 处 理 器 的 段 机 制 实现 程序 分 段 。 
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摊 巷 疏 
包含 程序 的 堆栈 ， 扒 栈 中 有 返回 地 址 、 参 数 和 被 执行 函数 的 局 部 变量 。 


每 个 mm_struct 内存 摘 述 符 《 参 见 第 九 章 中 的 “内 存 搓 述 符 ” 一 刷 ) 都 包含 一 些 字段 来 
标识 相应 进程 特定 线性 区 的 作用 ， 


start_code,end_code 
程序 的 源 代码 所 在 线性 区 的 起 始 和 终止 线性 地 址 ， 即 可 执行 文件 中 的 代码 。 
start_data,end_data 
程序 的 初始 化 数据 所 在 线性 区 的 起 始 和 终止 线性 地 址 ,正如 在 可 执行 文件 中 所 指定 
的 那样 。 这 两 个 字段 指定 的 线性 区 大 体 上 与 数据 段 对 应 。 
start_brk,brk 
存放 线性 区 的 起 始 和 终止 线性 地 址 , 该 线性 区 包含 动态 分 配给 进程 的 内 存 区 (参看 
第 九 章 的 “ 扒 的 管理 ”一 节 )。 有 了 时 把 这 部 分 线性 区 叫做 扒 (heap)。 
start_stack 
正好 在 main() 的 返回 地 址 之 上 的 地 址 。 如 图 20-1 所 示 , 更 高 的 地 址 被 保留 (回想 
一 下 ， 栈 是 向 低地 址 增长 )。 
arg_start,arg._end 


命令 行 参数 所 在 的 堆栈 部 分 的 起 始 地 址 和 终止 地 址 。 


env_start,env_end 


环境 串 所 在 的 堆栈 部 分 的 起 始 地 址 和 终止 地 址 。 


注意 , 共享 库 和 文件 的 内 存 映 射 使 得 基于 程序 段 的 进程 地 址 空间 分 类 有 点 过 时 , 因为 每 
个 共享 库 被 映射 到 与 前 面 所 讨论 的 线性 区 不 同 的 线性 区 。 


灵活 线性 区 布局 


灵活 线性 区 布局 (flexible memory region lagout) 在 内 核 版 本 2.6.9 中 引 人 : 实际 上 ， 
每 个 进程 是 按照 用 户 态 堆栈 预期 的 增长 量 来 进行 内 存 布局 的 ,但 是 仍然 可 以 使 用 老 的 经 
典 布局 (主要 用 于 : 当 内 核 无 法 限制 进程 用 户 态 堆栈 的 大 小 时)。 表 20-4 以 80x86 结构 
的 默认 用 户 态 地 址 空间 为 例 描述 了 这 两 种 布局 ， 地 址 空间 最 大 可 以 到 3GB. 


正如 你 所 看 到 的 , 布局 之 间 只 在 文件 内 存 映射 与 匿名 映射 时 线性 区 的 位 置 上 有 区 别 。 在 
经 典 布局 下 , 这 些 区 域 从 整个 用 户 态 地 址 空间 的 1/3 开 始 , 通常 在 地 址 0x40000000。 新 
的 区 域 往 更 高 线性 地 址 追加 ， 因 此 ， 这 些 区 域 往 用 户 态 堆栈 方向 扩展 。 
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表 20-4: 80x86 结 构 的 线性 区 布局 





线性 区 种 类 经 典 布局 | 灵活 布局 

正文 段 (ELF) 起 自 : 0x08048000 

数据 与 bss 段 起 自 : 紧 接 正文 段 之 后 

堆 起 自 : 紧 接 数据 与 bss 段 之 后 

文件 内 存 映 射 与 起 自 : 0x40000000 (该 地 址 起 自 : 紧 接 用 户 态 堆栈 尾 〈 最 小 

匿名 线性 区 对 应 于 整个 用 户 态 地 址 空间 地 址 ) ， 库 连续 往 低 地 址 追加 
的 1/3)， 库 连续 往 高 地 址 追 
加 

用 户 态 堆栈 起 自 : 0xc0000000 并 向 低地 址 增长 





而 相反 的 是 ,在 灵活 布局 中 ,文件 内 存 映射 与 匿名 映射 的 线性 区 是 紧 接 用 户 态 堆栈 尾 的 。 
新 的 区 域 往 更 低 线性 地 址 追加 , 因此 ,这 些 区 域 往 堆 的 方向 扩展 。 记 住 ， 堆 栈 也 是 连续 
往 低地 址 志 加 的 。 


当 内 核能 通过 RLIMIT_STACK 资源 限制 来 限定 用 户 态 堆栈 的 大 小 时 , 通常 使 用 灵活 布 
局 (参见 第 三 章 “ 进 程 资 源 限制 ”一 节 )。 这 个 限制 确定 了 为 堆栈 保留 的 线性 地 址 空间 
大 小 。 但 是 这 个 空间 大 小 不 能 小 于 128MB 或 大 于 2.5GB。 


另外 ， 如 采 RLIMIT_STACK 资 源 限制 设 为 无 限 (infinity)， 或 者 系统 管理 员 将 
sysct]l_legacy_va_layout 变 量 设 为 1( 通 过 修改 /proc/sys/vm/legacy_va_layout 
文件 或 调用 相应 的 sysctl() 系 统 调 用 实现 ),， 内 核 无 法 确定 用 户 态 堆栈 的 上 限 ， 就 仍然 
使 用 经 典 线性 区 布局 。 


为 什么 引入 灵活 布局 ?其 主要 优点 是 可 以 允许 进程 更 好 地 使 用 用 户 态 线性 地 址 空间 ,在 
经 典 布 局 中 ， 堆 的 限制 是 小 于 1GB ， 而 其 他 线性 区 可 以 使 用 到 约 2GB (要 减 去 堆栈 大 
小 ) 。 在 灵活 布局 中 ， 这 些 限制 没有 了 ， 堆 和 其 他 线性 区 可 以 自由 扩展 ， 可 以 使 用 除了 
用 户 态 堆栈 和 程序 用 固定 大 小 的 段 以 外 的 所 有 线性 地 址 空间 。 


现在 ， 一 个 实用 的 小 试验 很 有 局 发 意义 。 让 我 们 录入 和 编译 下 面 的 C 程序 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
int maint() 
{ 
char cmd[32]; 
brk{(void *)0Ox8051000); 
sprintf(cmd, "cat /proc/self/maps")}; 
SYStem(cmaQ) ; 
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return 0: 


} 


实际 上 , 程序 将 它 的 进程 堆 变 大 (参见 第 九 章 “ 堆 的 管理 ”一 布 ),， 然后 在 /proc 特殊 文 
件 系 统 下 读 入 maps 文件 ， 该 文件 产生 进程 自身 的 线性 区 清单 。 


让 我 们 对 堆栈 大 小 不 加 任何 限制 并 运行 程序 : 


# ulimit -s unlimited; /tmp/memorylayout 
08048000-08049000 r-xp 00000000 03:03 5042408 tmp/memorylayout 
08049000-0804a000 rwxp 00000000 03:03 5042408 /tmp/memorylayout 
0804a000-08051000 rwxp 0804a000 00:00 0 


40000000-40014000 r-xp 00000000 03:03 620801 /lib/ld-2.3.2.s0 
40014000-40015000 rwxp 00013000 03:03 620801 /lib/l1d-2.3.2.s0 
40015000-40016000 rwxp 40015000 00:00 0 

4002f000-40157000 r-xp 00000000 03:03 620804 /lib/libc-2.3.2.S80 
40157000-4015b000 rwxp 00128000 03:03 620804 /lib/libc-2.3.2.s0 


4015b000-4015e000 rwxp 4015b000 00:00 0 
bffeb000-c0000000 rwxp bffebo000 00:00 0 
ffffe000-fffff000 ---p 00000000 00:00 0 


(由 于 C 编译 器 的 版 本 不 同 与 程序 链接 方式 不 同 , 见 到 的 结果 可 能 略 有 不 同 。) 前 两 个 十 
六 进 制 数 表示 线性 区 的 范围 ,后 面 是 权限 标志 。 最 后 面 是 线性 区 映射 的 文件 的 有 关 信 息 ， 
如 果 有 信息 就 是 : 文件 内 的 开始 偏 移 量 、 块 设备 号 、 索 引 市 点 号 和 文件 名 。 


请 注意 , 列 出 的 所 有 区 域 是 由 私有 内 存 映 射 实现 的 (权限 列 的 p 字 母 )。 这 并 不 奇怪 , 因 
为 这 些 线性 区 是 只 为 进程 提供 数据 而 存在 的 。 当 执行 指令 时 , 进程 可 以 修改 这 些 线性 区 
的 内 容 ， 但 是 与 它们 相关 的 磁盘 文件 会 保持 不 变 。 私 有 内 存 映 射 就 具有 如 此 作用 。 


从 0x8048000 开 始 的 线性 区 是 与 /tmp/memorylayoui 文件 的 0~4095 字 节 部 分 对 应 的 内 
存 映射 。 而 相应 的 权限 表示 是 可 执行 的 ( 它 包 含 了 目标 代码 )、 只 读 的 (因为 指令 在 执 
行 期 间 是 不 改变 的 ， 因 此 不 可 写 ) 和 私有 的 。 这 很 正确 ， 这 是 程序 正文 段 的 映射 区 域 。 


从 0x8049000 开始 的 线性 区 也 是 与 /tmp/memorylayout 文件 的 0~4095 字 节 部 分 对 应 的 
另 一 个 内 存 映 射 。 这 个 程序 太 小 ， 以 至 于 程序 的 正文 、 数 据 和 bss 段 都 在 同一 个 文件 页 
里 。 因 此 ， 包 含 数据 段 和 bss 段 的 线性 区 与 上 一 个 线性 区 在 线性 地 址 空间 是 重 登 的 。 


第 三 个 线性 区 包含 进程 的 堆 。 注 意 ， 它 在 线性 地 址 0x8051000 处 终止 , 传递 给 brk() 系 
统 调用 的 就 是 该 地 址 。 


接 下 来 从 0x40000000 和 0x40014000 开始 的 两 个 线性 区 ,分别 对 应 这 个 系统 ELF 共享 
库 (WUlib/1d-2.3.2.50) 动态 链接 程序 的 正文 段 和 数据 、bss 段 。 动 态 链接 程序 决 不 单独 执 
行 ， 它 总 是 以 内 存 映射 的 方式 映射 到 执行 其 他 程序 的 进程 地 址 空间 内 。 从 0x40015000 
开始 的 匿名 线性 区 已 由 动态 链接 程序 分 配 。 
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在 这 个 系统 上 ，C 库 正 好 存放 在 文件 Wib/libc-2.3.2.so 中 。C 库 的 正文 段 和 数据 、bss 段 
被 映射 到 从 0x4002f000 地 址 开始 的 两 个 线性 区 。 还 记得 私有 区 域 所 在 的 页 框 ， 只 要 没 
被 修改 ， 就 可 以 通过 写 时 复制 机 制 在 几 个 进程 间 共 享 。 因 此 ， 因 为 正文 段 是 只 读 的 ， 所 
示 包 含 C 库 执行 代码 的 页 框 几乎 在 所 有 当前 运行 进程 间 共 享 (除了 静态 链接 程序 ) 。 从 
0x4015p000 开始 的 匿名 线性 区 已 由 C 库 分 配 。 


从 0xbffeb000 到 0xc0000000 的 匿名 内 存 区 对 应 于 用 户 态 堆栈 。 我 们 在 第 九 章 “ 缺 页 异 
常 处 理 程序 ”一 布 已 讨论 过 堆栈 是 如 何在 必要 时 自动 地 向 低地 址 方向 扩展 的 。 


最 后 ， 从 0xffffte000 开 始 的 单 页 匿名 线性 区 包含 进程 的 vsyscall 页 ， 当 发 出 系统 调用 
和 从 信号 处 理 程序 返回 时 会 访问 该 区 域 (参见 第 十 章 “ 通 过 sysenter 指 令 发 出 系统 调用 ” 
一 市 和 第 十 一 章 “ 捕 获 信号 ”一 节 )。 


现在 我 们 对 用 户 态 堆栈 大 小 施加 限制 后 再 运行 该 程序 : 


# ulimit -s 100; /tmp/memorylayout 

08048000-08049000 r-xp 00000000 03:03 5042408 /tmp/memorylayout 
08049000-0804a000 rwxp 00000000 03:03 5042408 /tmp/memorylayout 
0804a000-08051000 rwxp 0804a000 00:00 0 

biea3000-b7fcbo000 r-xp 00000000 03:03 620804 /lib/libc-2.3.2.sS0 
bi7fcbho00-b7fcf000 rwxp 00128000 03:03 620804 /ib/libc-2.3.2.s0 
bi7fcto000-b7fd2000 rwxp lb7fcf000 00:00 0 

by7yteb00o0-b7yftec000 rwxp bp7feb000 00:00 0 

bi7ifeco000-b8000000 r-xp 00000000 03:03 620801 /lib/ld-2.3.2.S0 
b8000000-b8001000 rwxp 00013000 03:03 620801 /lib/ld-2.3.2.80 
btteb000o-c0000000 rwxp bffeb000 00:00 0 

ffffe000-fffff000 -~--p 00000000 00:00 0 


我 们 福 意 到 布局 发 生 了 变化 ， 即 在 最 高 堆栈 地 址 之 上 为 动态 链接 程序 映射 了 一 个 约 
128MB 的 区 域 . 而且 , 因为 C 库 的 线性 区 在 稍 后 创建 , 所 以 就 得 到 一 个 较 低 的 线性 地 址 。 


执行 跟踪 
执行 跟踪 (execution tracing ) 是 一 个 程序 监视 另 一 个 程序 执行 的 一 种 技术 。 被 跟踪 的 
程序 一 步 一 步 地 执行 , 直到 接收 到 一 个 信号 或 调用 一 个 系统 调用 ,执行 跟踪 由 调试 程序 
(debugger) 广泛 使 用 , 当然 还 使 用 其 他 技术 (包括 在 被 调试 程序 中 插入 断 点 及 运行 时 访 
同和 它 的 变量 )。 与 往常 一 样 ， 我 们 将 集中 讨论 内 核 怎样 支持 执行 跟踪 ， 而 不 讨论 调试 程 
序 怎 样 工作 。 


在 Linux 中 ， 通 过 ptrace() 系 统 调用 进行 执行 跟踪 ， 这 个 系统 调用 能 处 理 如 表 20-5 所 
示 的 命令 。 设 置 了 CAP_SYS_PTRACE 权能 的 进程 可 以 跟踪 系统 中 的 任何 进程 (除了 
init)。 相 反 ， 没 有 CAP_SYS_PTRACE 权能 的 进程 P 只 能 跟踪 与 P 有 相同 属 主 的 进程 。 
此 外 ， 两 个 进程 不 能 同时 跟踪 一 个 进程 。 
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表 20-5: 80x86 结 构 的 ptrace 命令 


命令 
PTRACE_ATTACH 
PTRACE_CONT 
PTRACE_DETACH 
PTRACE_GET_THREAD_AREA 
PTRACE_GETEVENTMSG 
PTRACE_GETFPREGS 
PTRACE_GETFPXREGS 
PTRACE_GETREGS 
PTRACE_GETSIGINFO 
PTRACE_KILL 
PTRACE_OLDSETOPTIONS 
PTRACE_PEEKDATA 
PTRACE_ PEEKTEXT 
PTRACE_PEEKUSR 
PTRACE_POKEDATA 
PTRACE_POKETEXT 
PTRACE_ POKEUSR 
PTRACE_SET_THREAD AREA 
PTRACE_SETFPREGS 
PTRACE_SETFPXREGS 
PTRACE_SETOPTIONS 
PTRACE_SETREGS 
PTRACE_SETSIGINFO 
PTRACE_SINGLESTEP 
PTRACE_SYSCALL 


PTRACE_TRACEME 


说 明 

对 另 一 个 进程 开始 执行 跟踪 

重新 恢复 执行 

终止 执行 跟踪 

代表 被 跟踪 进程 获得 线程 局 部 存储 区 (TLS) 
从 被 跟踪 进程 获得 附加 数据 (如 , 新 创建 进程 的 PID) 
读 浮 点 寄存 器 

读 MMX 和 XMM 寄存 器 

读 有 特权 的 CPU 的 寄存 器 

获得 传 给 被 跟踪 进程 最 后 一 条 信号 的 信息 
删除 被 跟踪 的 进程 。 

依赖 于 结构 的 命令 ， 等 价 于 PTRACE_SETOPTIONS 
从 数据 段 读 一 个 32 位 值 

从 文本 段 读 一 个 32 位 值 

读 CPU 的 普通 和 调试 寄存 句 

把 一 个 32 位 值 写 入 数据 段 

把 一 个 32 位 值 写 入 正文 段 

写 CPU 的 普通 和 调试 寄存 器 

代表 被 跟踪 进程 设置 线程 局 部 存储 区 (TLS) 
写 浮 点 寄存 器 

写 MMX 和 XMM 寄存 问 

修改 ptrace() 的 行为 


写 有 特权 的 CPU 寄存 器 

建立 传 给 被 跟踪 进程 最 后 一 条 信号 的 信息 
恢复 单条 汇编 指令 的 执行 

恢复 执行 直到 下 一 个 系统 调用 的 边界 

对 当前 进程 开始 执行 跟踪 





ptrace() 系 统 调用 修改 被 跟踪 进程 描述 符 的 parent 字段 以 使 它 指 向 跟踪 进程 ， 因 此 ， 
跟踪 进程 变 为 被 跟踪 进程 的 有 效 父 进程 。 当 执行 跟踪 终止 时 ， 也 就 是 当 以 
PTRACE_DETACH 命 令 调 用 ptrace() 了 时 , 这 个 系统 调用 把 p_pptr 设 置 为 real_parent 
的 值 ， 恢 复 被 跟踪 进程 原来 的 父 进程 (参见 第 三 章 的 “进程 之 间 的 关系 ”一 节 )。 
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与 被 跟踪 程序 相关 的 几 个 监控 事件 为 : 
。 ”一 条 单独 汇编 指令 执行 的 结束 

。 ”进入 系统 调用 

。 ” 述 出 系统 调用 


。 ”接收 到 一 个 信号 


当 一 个 监控 的 事件 发 生 时 ， 被 跟踪 的 程序 停止 ， 并 且 将 SIGCHID 信号 发 送 给 它 的 父 进 
程 。 当 父 进程 希望 恢复 子 进程 的 执行 时 ,就 使 用 PTRACE_CONT 、PTRACE_SINGLESTEP 
和 PTRACE_SYSCALL 命令 中 的 一 条 命令 ， 这 取决 于 父 进程 要 监控 哪 种 事件 。 


PTRACE_CONT 命令 只 继续 执行 , 子 进程 将 一 直 执 行 到 收 到 另 一 个 信号。 这 种 跟踪 是 通 
过 进程 描述 符 的 ptrace 字段 中 的 PF_PTRACED 标 志 实 现 的 ， 而 这 个 标志 的 检查 是 由 
do_signal() 图 数 进行 的 〈 参 看 第 十 一 章 中 的 “传递 信号 ”一 节 )。 


PTRACE_SINGLESTEP 命令 强迫 子 进程 执行 下 一 条 汇编 语言 指 后 又 停止 它 。 这 
种 跟踪 是 基于 80x86 机 器 的 eflags 寄 存 器 的 TF 陷 阱 标志 而 实现 的 这 个 村 上 1 时 ， 
在 任 一 条 汇编 语言 指令 之 后 正好 产生 一 个 “Debug ”异常 。 相 应 的 异常 处 理 程序 只 是 清 
掉 这 个 标志 ， 强 追 当前 进程 停止 ,并 发 送 SIGCHLD 信号 给 父 进程 。 注 意 ， 设 置 TE 标 志 
并 不 是 特权 操作 ， 因 此 用 户 态 进程 即使 在 没有 ptrace() 系统 调用 的 情况 下 ， 也 能 强迫 
单 步 执 行 。 内 核 检 查 进程 描述 符 中 的 PT_DTRACE 标志 ， 以 跟踪 子 进程 是 否 通过 
ptrace() 进 行 单 步 执行 。 


PTRACE_SYSCALL 命 令 使 被 跟踪 的 进程 重新 恢复 执行 ,直到 一 个 系统 调用 被 调用 。 进程 
停止 两 次 ， 第 一 次 是 在 系统 调用 开始 时 ， 第 二 次 是 在 系统 调用 终止 时 。 这 种 跟踪 是 利用 
进程 摘 述 符 中 的 TIF_SYSCALL_TRACE 标志 实现 的 。 这 个 标志 是 在 进程 thread_info 
结构 的 flags 字段 中 ， 并 在 system_call () 汇 编 语 言 的 函数 中 被 检查 (参见 第 十 章 “ 通 
过 int $O x 80 指令 发 出 系统 调用 ”一 市 )。 


也 可 以 利用 Intel Pentium 处 理 器 的 一 些 调试 特点 来 跟踪 进程 。 例 如 ， 父 进程 使 用 
PTRACE_POKEUSR 命令 为 子 进程 设置 dr0，…，dr7 调试 寄存 器 的 值 。 当 由 某 调 试 寄 
存 器 监控 的 事情 发 生 时 ，CPU 产生 “Debug” 异 常 ， 异常 处 理 程序 然后 挂 起 被 调试 的 进 
程 并 给 父 进程 发 送 STGCHLD 信号。 


可 执行 格式 


Linux 标准 的 可 执行 格式 是 ELF(Executable and Linking Format)， 它 由 Unix 系统 实验 
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室 开 发 并 在 Unix 世界 相当 流行 。 几 个 著名 的 Unix 操作 系统 (如 System V Release 4 和 
Sun 的 Solaris 2) 都 把 ELF 作为 它们 的 主要 可 执行 格式 。 


Linux 的 旧版 支持 另 一 种 名 叫 Assembler OUTput Format (a.out) 的 格式 ， 实 际 上 ， 在 
Unix 世界 有 好 几 种 版 本 使 用 这 种 格式 。 因 为 现在 ELF 非常 实用 ， 因 此 已 经 很 少 用 a.out 
格式 。 


Linux 支持 很 多 其 他 不 同 格式 的 可 执行 文件 ,在 这 种 方式 下 , Linux 能 运行 为 其 他 操作 系 
统 所 编译 的 程序 ， 如 MS-DOS 的 EXE 程序 ,或 BSD Unix 的 COFF 可 执行 格式 。 有 几 
种 可 执行 格式 ， 如 Java 或 bash 脚本 ， 是 与 平台 无 关 的 。 


由 类 型 为 1 inux_binfmt 的 对 象 所 描述 的 可 执行 格式 实质 上 提供 以 下 三 种 方法 : 


load binary 
通过 读 存放 在 可 执行 文件 中 的 信息 为 当前 进程 建立 一 个 新 的 执行 环境 。 
load_shlib 
用 于 动态 地 把 一 个 共享 库 捆绑 到 一 个 已 经 在 运行 的 进程 ,这 是 由 uselib() 系 统 调 
用 激活 的 。 


CoOre_ qurmp 
在 名 为 core 的 文件 中 存放 当前 进程 的 执行 上 下 文 。 这 个 文件 通常 是 在 进程 接收 到 
一 个 缺 省 操作 为 “dump” 的 信号 时 被 创建 的 ， 其 格式 取决 于 被 执行 程序 的 可 执行 
类 型 (参见 第 十 一 章 的 “传递 信号 之 前 所 执行 的 操作 ”一 节 )。 


所 有 的 1inux_binfmt 对 象 都 处 于 一 个 单 向 链表 中 ， 第 一 个 元 素 的 地 址 存放 在 formats 
变量 中 。 可 以 通过 调用 register_binftmt() 和 unregister_binfmt () 国 数 在 链表 中 插 
入 和 删除 元 素 。 在 系统 启动 期 间 ， 为 每 个 编译 进 内 核 的 可 执行 格式 都 执行 
register_binfmt () 函 数 。 当 实现 了 一 个 新 的 可 执行 格式 的 模块 正 被 装载 时 , 也 执行 这 
个 函数 ， 当 模块 被 卸载 时 ， 执 行 unregister_binfmt () 国 数 。 


在 formats 链表 中 的 最 后 一 个 元 素 总 是 对 解释 脚本 (interprerted script) 的 可 执行 格式 
进行 描述 的 一 个 对 象 。 这 种 格式 只 定义 了 load_pinary 方 法 。 其 相应 的 10ad_script () 
函数 检查 这 种 可 执行 文件 是 否 以 两 个 #! 字 符 开始 。 如果 是 , 这 个 函数 就 把 第 一 行 的 其 余 
部 分 解释 为 另 一 个 可 执行 文件 的 路 径 名 ， 并 把 脚本 文件 名 作为 参数 传递 以 执行 它 ( 注 
S) 


注 5， 只 要 以 用 户 shell 能 识别 的 语言 把 文件 写 入 脚本 文件 , 即使 不 以 划 1 字符 开始 , 也 可 能 执 
行 这 个 脚本 文件 。 但是， 在 这 种 情况 下 ， 用 shell (用 户 在 shell]) 或 氧 省 的 Bourne shell 
sh 来 对 这 种 脚本 进行 解释 ， 因 此 并 不 直接 涉及 内 核 。 
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Linux 允许 用 户 注册 自己 定义 的 可 执行 格式 。 对 这 种 格式 的 识别 或 者 通过 存放 在 文件 前 
128 字 节 的 魔 数 , 或 者 通过 表示 文件 类 型 的 扩展 名 。 例如 ,MS-DOS 的 扩展 名 由 “， 把 三 
个 字符 从 文件 名 中 分 离 出 来 : .exe 扩 展 名 标识 可 执行 文件 , 而 .bat 扩 展 名 标识 shell 脚 本。 


当 内 核 确定 可 执行 文件 是 自 定义 格式 时 , 它 就 启动 相应 的 解释 程序 (interpreter program)。 
解释 程序 运行 在 用 户 态 ， 读 入 可 执行 文件 的 路 径 名 作为 参数 ， 并 执行 计算 。 例 如 ， 包 含 
Java 程序 的 可 执行 文件 就 由 Java 虚拟 机 (如 Wusr/lib/jiava/bin/jiava) 来 解释 。 


这 种 机 制 与 脚本 格式 类 似 , 但 功能 更 加 强大 ,这 是 因为 它 对 自 定义 格式 不 加 任何 限制 。 要 
注册 一 个 新 格式 , 就 必须 在 binfmt_misc 特殊 文件 系统 (通常 在 /proc/sys/fs/binfmt_misc) 
的 注册 文件 内 写 和 人 一 个 字符 串 ， 其 格式 如 下 : 


:name :type:oftfset :string:mask:interprerer:f1l1ags 
这 里 ， 每 个 字段 的 含义 如 下 : 
name 

新 格式 的 标识 符 。 
type 

识别 类 型 (M 表示 魔 数 ，E 表示 扩展 )。 
offset 

魔 数 在 文件 中 的 起 始 偏 移 量 。 
string 

以 魔 数 或 者 以 扩展 名 匹配 的 字 市 序列 。 
mask 

用 来 屏蔽 掉 string 中 的 一 些 位 的 字符 串 。 
interpreter 

解释 程序 的 完整 路 径 名 。 
flags 

可 选 标志 ， 控 制 必须 怎样 调用 解释 程序 。 


\ 


例如 ， 超 级 用 户 执行 的 下 列 命 令 将 使 内 核 识 别 出 Microsoft Windows 的 可 执行 格式 : 


$ echo ':DOSWin:M:D0:MZ:0xff:/usr/bin/wine:'’ 
> /proc/sys/fts/binfmt _ misc/register 


Windows 可 执行 文件 的 前 两 个 字 市 是 魔 数 MZ， 由 解释 程序 /usr/bin/wine 执行 这 个 可 执 
行文 件 。 
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执行 域 

在 第 一 章 已 提 到 ，Linux 的 一 个 巧妙 的 特点 就 是 能 执行 其 他 操作 系统 所 编译 的 程序 。 当 
然 , 只 有 内 核 运行 的 平台 与 可 执行 文件 包含 的 机 器 代码 对 应 的 平台 相同 时 这 才 是 可 能 的 。 
对 这 些 “ 外 来 ”程序 提供 两 种 支持 : 


。 ”模拟 执行 (emulated execution): 程序 中 包含 的 系统 调用 与 POSIX 不 兼容 时 才 有 
必要 执行 这 种 程序 。 

。 ”原样 执行 (native execution): 只 有 程序 中 所 包含 的 系统 调用 完全 与 POSIX 兼 容 时 
才 有 效 。 


Microsoft MS-DOS 和 Windows 程 序 是 被 模拟 执行 的 , 因为 它们 包含 的 API 不 能 被 Linux 
所 认识 ， 因 此 不 能 原样 执行 。 像 DOSemu 或 Wine 这 样 的 模拟 程序 (出 现在 上 一 节 末 尾 
的 例子 中 ) 被 调用 来 把 每 个 API 调 用 转换 为 一 个 模拟 的 封装 男 数 调用 , 而 封装 尔 数 调用 
又 使 用 现 有 的 Linux 系统 调用 。 因 为 模拟 程序 主要 是 作为 用 户 态 的 应 用 程序 来 执行 ， 因 
此 我 们 在 此 不 做 进一步 的 讨论 。 


另 一 方面 , 不 用 太 费 力 就 可 以 执行 为 其 他 操作 系统 编译 的 与 POSIX 兼 容 的 程序 , 因为 与 
POSIX 兼容 的 操作 系统 都 提供 了 类 似 的 API (尽管 实际 上 并 不 总 是 这 种 情况 , 但 API 应 
该 相同 )。 内 核 必须 消除 的 细微 差别 通常 涉及 如 何 调用 系统 调用 或 如 何 给 各 种 信号 编号 。 
这 种 信息 存放 在 类 型 为 exec_domain 的 执行 域 描 述 符 (execution domain descriptor) 中 。 


进程 可 以 指定 它 的 执行 域 , 这 是 通过 设置 进程 描述 符 的 personality 字 段 , 以 及 把 相应 
exec_domain 数 据 结 构 的 地 址 存放 到 thread_info 结构 的 exec_domain 字 段 来 实现 的 。 
进程 可 以 通过 发 布 一 个 叫做 personality() 的 系统 调用 来 改变 它 的 个 性 (personality )， 
表 20-6 列 出 了 这 个 系统 调用 的 参数 所 接收 的 典型 值 . 程 序 员 通常 不 希望 直接 改变 其 程序 
的 个 性 ; 相反 , 应 该 通过 建立 进程 的 执行 上 下 文 的 “ 粘 合 ” 代码 来 发 出 Personality () 
系统 调用 〈 参 见 下 一 节 )。 


表 20-6: Linux 内 核 所 支持 的 主要 个 性 


个 性 操作 系统 
PER_LINUX 标准 执行 域 


PER_LINUX_32BIT Linux，64 位 结构 中 32 位 物理 地 址 
PER_LINUX_FDPIC Linux 程序 ， 格 式 为 ELF FDPIC 
PER_SVR4 System V Release 4 

PER_SVR3 System V Release 3 


PER_SCOSVR3 SCO Unix Yersion 3.2 
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表 20-6; Linux 内 核 所 支持 的 主要 个 性 ( 续 ) 


人 全 

PER OSRS 
PER_WYSEV386 
PER_ISCR4 
PER. BSD 

PER. SUNOS 
PER_XENIX 
PER_LINUX32 
PER LLNUX32 53GB 
PRER. RIXSZ 
PER_IRIXN32 
PER_IRIX64 
PER.- RESGOS 
PER. SOLARTIS 
PER_UWJ 

RER. OSFd 


PER_ HPUX 


exec 函数 


操作 系统 

SCO OpenServer Release 5 

Unix System V/386 Release 3.2.] 

交互 式 Unix 

BSD Unix 

SunOS 

Xenix 

64 位 结构 中 32 位 Linux 程序 模拟 (使 用 4GB 用 户 态 地 址 空间 ) 
64 位 结构 中 32 位 Linux 程序 模拟 (使 用 3GB 用 户 态 地 址 空间 ) 
SGI Irix-5 32 位 

SGI Irix-6 32 位 

SGI Irix-6 64 位 

RISC OS 

Sun 的 Solaris 

SCO( 正 式 为 Caldera) 的 UnixWare 7 

Digital UNIX (Compagqg Tru64 UNIX) 

HP 的 HP-UX 


Unix 系 统 提 供 了 一 系列 国 数 , 这 些 国 数 能 用 可 执行 文件 所 描述 的 新 上 下 文 代替 进程 的 上 
下 文 。 这 样 的 图 数 名 以 前 缀 exec 开始 ， 后 跟 一 个 或 两 个 字母 ， 因 此 ， 家族 中 的 一 个 普 
通 国 数 被 当 作 exec 国 数 来 引用 。 


表 20-7 中 列 出 了 exec 销 数 ， 它 们 之 间 的 差别 在 于 如 何 解释 参数 。 


表 20-7; exec 函数 
函数 名 


execl() 
execlp{) 
execle() 


execyv () 


路 径 搜索 命令 行 参数 环境 数组 
下 列表 省 
是 列表 否 
下 列表 是 
雪 数组 雪 
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表 20-7; exec 函数 ( 续 ) 


函数 名 路 径 搜索 命令 行 参 数 环境 数组 
execvp () 是 数组 否 
execve () 否 数组 是 


每 个 函数 的 第 一 个 参数 表示 被 执行 文件 的 路 径 名 ,路径 名 可 以 是 绝对 路 径 或 是 当前 进程 
目录 的 相对 路 径 。 此 外 ， 如 果 路 径 名 中 不 包含 “/” 字 符 ，execlp() 和 execvp() 国 数 
就 在 PATH 环境 变量 指定 的 所 有 目录 中 搜索 这 个 可 执行 文件 。 


除了 第 一 个 参数 ，execl () 、execlp() 和 execle() 国 数 包含 的 其 他 参数 个 数 都 是 可 变 
的 。 每 个 参数 指向 一 个 字符 串 ， 这 个 字符 串 是 对 新 程序 命令 行 参 数 的 描述 ， 正 如 函数 名 
中 “1” 字符 所 隐 含 的 一 样 , 这些 参数 组 织 成 一 个 列表 (最 后 一 个 值 为 NULL)。 通常 情况 
下 ， 第 一 个 命令 行 参 数 复制 可 执行 文件 名 。 相 反 ，execv()、execvp () 和 execve () 国 
数 指定 单个 参数 的 命令 行 参数 ， 正 如 函数 名 中 的 “v” 字 符 所 隐 含 的 一 样 ， 这 单个 参数 
是 指向 命令 行 参 数 串 的 指针 向 量 地 址 。 数 组 的 最 后 一 个 元 素 必 须 存放 NULL 值 。 


execle() 和 execve () 国 数 的 最 后 一 个 参数 是 指向 环境 串 的 指针 数组 的 地 址 ;数组 的 最 
一 个 元 素 照 样 必须 为 NULD。 其 他 国 数 对 新 程序 环境 参数 的 访问 是 通过 C 库 定 义 的 外 
部 全 局 变量 environ 进行 的 。 


所 有 的 exec 函数 〈( 除 execve() 外 ) 都 是 C 库 定义 的 封装 例 程 ， 并 利用 了 execve () 系 
统 调用 ， 这 是 Linux 所 提供 的 处 理 程 序 执 行 的 唯一 系统 调用 。 


sys_execve () 服 务 例 程 接 收 下 列 参 数 : 


。 ”可 执行 文件 路 径 名 的 地 址 (在 用 户 态 地 址 空间 )。 

。 ”以 NULL 结束 的 字符 串 指针 数组 的 地 址 〈 在 用 户 态 地 址 空间 ) 。 每 个 字符 串 表 示 一 
个 命令 行 参 数 。 

。 ”以 NULL 结束 的 字符 串 指针 数组 的 地 址 (也 在 用 户 态 地 址 空间 )。 每 个 字符 串 以 
NAME=value 形式 表示 一 个 环境 变量 。 


sySs_execve () 把 可 执行 文件 路 径 名 拷贝 到 一 个 新 分 配 的 页 框 。 然 后 调用 do_execve () 
国 数 , 传递 给 它 的 参数 为 指 回 这 个 页 框 的 指针 、 指 针 数 组 的 指针 及 把 用 户 态 寄 存 器 内 容 
保存 到 内 核 态 堆栈 的 位 置 。dqo_execve() 依 次 执行 下 列 操作 ; 


1. 动态 地 分 配 一 个 Linux_binprr 数 据 结构 ,并 用 新 的 可 执行 文件 的 数据 填充 这 个 结构 。 
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调用 path_lookup ()、dqentry_open() 和 path_release(), 以 获得 与 可 执行 文件 
相关 的 目录 项 对 象 、 文 件 对 象 和 索引 布点 对 象 。 如 果 失 败 ， 则 返回 相应 的 错误 码 。 


检查 是 否 可 以 由 当前 进程 执行 该 文件 , 再 检查 索引 节点 的 i_writecount 字段， 以 
确定 可 执行 文件 没 被 写 人 ， 把 -1 存放 在 这 个 字段 以 禁止 进一步 的 写 访问 。 

在 多 处 理 器 系统 中 ， 调 用 schedq_exec{() 函数 来 确定 最 小 负载 CPU 以 执行 新 程序 ， 
并 把 当前 进程 转移 过 去 (参见 第 七 章 )。 


调用 init_new_context () 检 查 当 前 进程 是 否 使 用 自 定义 局 部 描述 符 表 , 参见 第 二 
章 “Linux LDT” 一 节 )。 如 果 是 ， 陋 数 为 新 程序 分 配 和 准备 一 个 新 的 LDT。 


调用 prepare_binprm() 国 数 填充 1inux_pbinprm 数 据 结 构 ， 这 个 涌 数 又 依次 执行 
下 列 操作 : 


a. 再 一 次 检查 文件 是 否 可 执行 (至 少 设置 一 个 执行 访问 权限 )。 如 果 不 可 执行 , 则 
返回 错误 码 ( 因 为 带 有 CAP_DAC_OVERRIDE 权 能 的 进程 总 能 通过 检查 , 所 以 
第 3 步 中 的 检查 还 不 够 。 参 见 本 章 前 面 “进程 的 信任 状 和 权能 ”一 节 )。 

b. 初始 化 1inux_binprm 结 构 的 e_uid 和 e_gid 字 段 , 考虑 可 执行 文件 的 setuiq 
和 setgid 标 志 的 值 。 这 些 字 段 分 别 表 示 有 效 的 用 户 ID 和 组 ID。 也 要 检查 进程 
的 权能 (在 本 章 前 面 的 “进程 的 信任 状 和 权能 ”一 节 中 介绍 了 兼容 性 技巧 )。 

c. 用 可 执行 文件 的 前 128 字 节 填 充 Linux_binprm 结 构 的 buf 字 段 。 这 些 字 节 包含 
的 是 适合 于 识别 可 执行 文件 格式 的 一 个 魔 数 和 其 他 信息 。 

把 文件 路 径 名 、 命令 行 参 数 及 环境 串 拷 贝 到 一 个 或 多 个 新 分 配 的 页 框 中 (最 终 , 它 

们 会 被 分 配给 用 户 态 地 址 空间 ) 。 

调用 search_pinary_handler () 国 数 对 formats 链 表 进 行 扫 描 ， 并 尽力 应 用 每 个 

元 素 的 10ad_binary 方法 ， 把 Linux_binprm 数 据 结构 传递 给 这 个 国 数 。 只 要 

load_binary 方法 成 功 应 答 了 文件 的 可 执行 格式 ， 对 formats 的 扫描 就 终止 。 

如 果 可 执行 文件 格式 不 在 formats 链表 中 ， 就 释放 所 分 配 的 所 有 页 框 并 返回 错误 

码 -ENOEXEC， 表 示 Linux 不 认识 这 个 可 执行 文件 格式 。 

否则 , 图 数 释放 1inux_binprm 数 据 结构 ,返回 从 这 个 文件 可 执行 格式 的 1oad_binary 

方法 中 所 获得 的 代码 。 


可 执行 文件 格式 对 应 的 10ad_binary 方 法 执行 下 列 操作 (我 们 假定 这 个 可 执行 文件 所 在 
的 文件 系统 允许 文件 进行 内 存 映 射 并 需要 一 个 或 多 个 共享 库 ): 


] . 


检查 存放 在 文件 前 128 字 节 中 的 一 些 魔 数 以 确认 可 执行 格式 。 如 果 魔 数 不 匹 配 , 则 
退回 错误 码 -ENOEXEC 。 
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注 6: 


读 可 执行 文件 的 首部 。 这 个 首部 描述 程序 的 段 和 所 需 的 共享 库 。 


从 可 执行 文件 获得 动态 链接 程序 的 路 径 名 ,并 用 它 来 确定 共享 库 的 位 置 并 把 它们 映 
射 到 内 存 。 


获得 动态 链接 程序 的 目录 项 对 象 (也 就 获得 了 索引 节点 对 象 和 文件 对 象 )。 

检查 动态 链接 程序 的 执行 许可 权 。 

把 动态 链接 程序 的 前 128 字 节 拷贝 到 缓冲 区 。 

对 动态 链接 程序 类 型 执行 一 些 一 致 性 检查 。 

调用 flush_old_exec() 函数 释放 前 一 个 计算 所 占用 的 几乎 所 有 资源 。 这 个 函数 又 
依次 执行 下 列 操作 : 


a. 如 果 信 号 处 理 程序 的 表 为 其 他 进程 所 共享 ,那么 就 分 配 一 个 新 表 并 把 旧 表 的 引 
用 计数 器 减 1; 而 且 它 将 进程 从 有 旧 的 线程 组 脱离 (参见 第 三 章 “ 标 识 一 个 进程 ” 
一 节 )。 这 是 通过 调用 de_thread() 函 数 完成 的 。 


b， 如 果 与 其 他 进程 共享 ， 就 调用 unshare_files() 胃 数据 贝 一 份 包含 进程 已 打 
开 文 件 的 files_struct 结构 。 


c. 调用 exec_mmap () 困 数 释放 分 配给 进程 的 内 存 描述 符 、 所 有 线性 区 及 所 有 页 
框 ， 并 请 除 进 程 的 页 表 。 


d， 将 可 执行 文件 路 径 名 赋 给 进程 描述 符 的 comm 字段 。 

e， 调用 flush_thread() 函数 清除 浮 点 寄存 器 的 值 和 在 TSS 段 保存 的 调试 寄存 器 
的 值 。 

f. 调用 flush_signal_handqlers() 困 数 ， 用 于 将 每 个 信号 恢复 为 默认 操作 ， 从 
而 更 新 信号 处 理 程 序 的 表 。 


调用 flush_olg_files() 函 数 关闭 所 有 打开 的 文件 ,这 些 打 开 的 文件 在 进程 描 
述 符 的 files->close_on_exec 字段 设置 了 相应 的 标志 (参见 第 十 二 章 中 的 
“与 进程 相关 的 文件 ”一 节 ) ( 注 6)。 

现在 ,我 们 已 经 不 能 返回 了 : 如 果真 出 了 差错 ， 这 个 国 数 再 不 能 恢复 前 一 个 计算 。 


清除 进程 描述 符 的 PFE_FORKNOEXEC 标 志 。 这 个 标志 用 于 在 进程 创建 时 设置 进程 
记 账 ， 在 执行 一 个 新 程序 时 清除 进程 记 账 。 
设立 进程 新 的 个 性 ， 即 设置 进程 描述 符 的 personality 字段 。 


Ua 


可 以 通过 fcntl1() 系 统 调 用 来 读 取 和 修改 这 些 标 志 。 
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20. 


21. 


. 调用 arch_pick_mmap_layout ()， 以 选择 进程 线性 区 的 布局 〈 参 见 本 章 前 面 “ 程 


序 段 与 进程 的 线性 ”一 节 )。 


调用 setup_arg_pages () 国 数 为 进程 的 用 户 态 堆栈 分 配 一 个 新 的 线性 区 描述 符 ,并 


把 那个 线性 区 插入 到 进程 的 地 址 空间 。setup_arg_pages () 还 把 命令 行 参数 和 环 
境 变 量 串 所 在 的 页 框 分 配给 新 的 线性 区 。 


. 调用 ao_mmap () 函数 创建 一 个 新 线性 区 来 对 可 执行 文件 正文 段 《 即 代码 ) 进行 映 


射 。 这 个 线性 区 的 起 始 线性 地 址 依赖 于 可 执行 文件 的 格式 , 因为 程序 的 可 执行 代码 
通常 是 不 可 重 定位 的 。 因此 , 这 个 函数 假定 从 某 一 特定 逻辑 地 址 的 偏 移 量 开始 ( 因 
此 就 从 某 一 特定 的 线性 地 址 开始 ) 装 入 正文 段 . ELF 程 序 被 装 入 的 起 始 线性 地 址 为 
0x08048000。 


. 调用 do_mrmmap() 函数 创建 一 个 新 线性 区 来 对 可 执行 文件 的 数据 段 进行 映 射 , 这 个 线 


性 区 的 起 始 线性 地 址 也 依赖 于 可 执行 文件 的 格式 ,因为 可 执行 代码 希望 在 特定 的 偏 
移 量 ( 即 特定 的 线性 地 址 ) 处 找到 它 自 己 的 变量 。 在 ELF 程 序 中 , 数据 段 正好 被 装 
在 正文 段 之 后 。 


为 可 执行 文件 的 其 他 专用 段 分 配 另 外 的 线性 区 ， 通 常 是 无 。 


调用 一 个 装 入 动态 链接 程序 的 函数 .。 如果 动态 链接 程序 是 ELF 可 执行 的 , 这 个 函数 
就 叫做 load_elf_interp()。 一 般 情 况 下 ， 这 个 函数 执行 第 12 ~ 14 步 的 操作 ， 不 
过 要 用 动态 链接 程序 代替 被 执行 的 文件 。 动 态 链接 程序 的 正文 段 和 数据 段 在 线性 区 
的 起 始 线性 地 址 是 由 动态 链接 程序 本 身 指定 的 ， 但 它们 处 于 高 地 址 区 (通常 高 于 
0x40000000), 这 是 为 了 避免 与 被 执行 文件 的 正文 段 和 数据 段 所 映射 的 线性 区 发 生 
冲突 (参见 前 面 的 “程序 段 和 进程 的 线性 区 ”一 节 )。 


.把 可 执行 格式 的 Linux_binfmt 对 象 的 地 址 存放 在 进程 描述 符 的 binfmt 字段 中 。 


确定 进程 的 新 权能 。 


创建 特定 的 动态 链接 程序 表 并 把 它们 存放 在 用 户 态 堆栈 ， 如 图 20-1 所 示 ， 这 些 表 
处 于 命令 行 参 数 和 指向 环境 串 的 指针 数组 之 间 。 


设置 进程 的 内 存 描述 符 的 start_code、end code、 start_data 、enaq_data、 
start_brk、brk 及 start_stack 字 段 。 


调用 Go_brk() 沙 数 创建 一 个 新 的 匿名 线性 区 来 映射 程序 的 bss 段 ( 当 进 程 写 入 一 
个 变量 时 ， 就 触发 请 求 调 页 ， 进 而 分 配 一 个 页 框 )。 这 个 线性 区 的 大 小 是 在 可 执行 
程序 被 链接 时 就 计算 出 来 的 。 因 为 程序 的 可 执行 代码 通常 是 不 可 重新 定位 的 ， 因 
此 ， 必 须 指定 这 个 线性 区 的 起 始 线性 地 址 。 在 ELF 程序 中 ，bss 段 正好 装 在 数据 段 
之 后 。 


程序 的 执行 823 


22.， 调用 start_thread() 宏 修改 保存 在 内 核 态 堆栈 但 属于 用 户 态 寄存 器 的 eip 和 esp 
的 值 ， 以 使 它们 分 别 指向 动态 链接 程序 的 入 口 点 和 新 的 用 户 态 堆栈 的 栈 顶 。 


23， 如 果 进 程 正 被 跟踪 ， 就 通知 调试 程序 execve () 系统 调 用 已 完 成 。 
24， 返 回 0 值 (成 功 ) 。 


当 execve () 系统 调用 终止 且 调 用 进程 重新 恢复 它 在 用 户 态 的 执行 时 ， 执 行 上 下 文 被 大 
幅度 改变 ， 调 用 系统 调用 的 代码 不 复 存 在 。 从 这 个 意义 上 看 ， 我 们 可 以 说 execve () 从 
未 成 功 返 回 。 取 而 代 之 的 是 ， 要 执行 的 新 程序 已 被 映射 到 进程 的 地 址 空间 。 


但 是 ， 新 程序 还 不 能 执行 ， 因 为 动态 链接 程序 还 必须 考虑 共享 库 的 装载 ( 注 7)。 


尽管 动态 链接 程序 运行 在 用 户 态 , 但 我 们 还 要 在 这 里 简要 概述 一 下 它 是 如 何 运作 的 。 它 
的 第 一 个 工作 就 是 从 内 核 保 存在 用 户 态 堆栈 的 信息 (处 于 环境 串 指针 数组 和 arg_start 
之 间 ) 开始 , 为 自己 建立 一 个 基本 的 执行 上 下 文 。 然 后 ,动态 链接 程序 必须 检查 被 执行 
的 程序 ,以 识别 哪个 共享 库 必须 装 入 及 在 每 个 共享 库 中 哪个 函数 被 有 效 地 请 求 。 接 下 来 ， 
解释 器 发 出 几 个 rmap () 系 统 调 用 来 创建 线性 区 , 以 对 将 存放 程序 实际 使 用 的 库 函 数 ( 正 
文 和 数据 ) 的 页 进行 映射 。 然 后, 解释 器 根据 库 的 线性 区 的 线性 地 址 更 新 对 共享 库 符号 
的 所 有 3 引用。 最 后 ， 动 态 链接 程序 通过 跳 转 到 被 执行 程序 的 主 入 口 点 而 终止 它 的 执行 。 
从 现在 开始 ， 进 程 将 执行 可 执行 文件 的 代码 和 共享 库 的 代码 。 


你 可 能 已 注意 到 , 执行 程序 是 一 个 相当 复杂 的 活动 ， 它 涉及 内 核 设计 的 很 多 方面 ， 如 进 
程 抽象 、 内 存 管 理 、 系 统 调 用 及 文件 系统 。 这 会 使 你 认识 到 : Linux 真是 一 个 杰作 1 


注 7: 如 果 可 执行 文件 是 静态 链接 的 ， 即 如 果 不 需 要 共享 库 ， 事 情 就 简单 多 了 。Load_binary 
方法 只 需 将 程序 的 正文 段 、 数 据 段 、bss 段 和 堆 找 段 瑞 射 到 进程 线性 区 ， 然 后 把 用 户 太 
eip 寄存 器 的 内 容 设 置 为 新 程序 的 入 口 点 即 可 。 


本 附录 介绍 当 用 户 打开 计算 机 电源 之 后 所 发 生 的 事情 ， 也 就 是 说 ，Linux 内 核 映像 是 如 
何 被 拷贝 到 内 存 的 ， 又 是 如 何 被 执行 的 。 简 而 言 之 ， 我 们 讨论 内 核 ， 继 而 是 整个 系统 ， 
是 如 何 局 动 的 。 


“启动 (bootstrap)” 这 个 术语 的 原意 是 一 个 人 要 罕 上 鞭子 站 起 来 。 在 操作 系统 中 ,这 个 
术语 专门 表示 把 一 部 分 操作 系统 装载 到 主 存 中 并 让 处 理 器 执行 它 , 也 表示 内 核 数 据 结构 
的 初始 化 、 一 些 用 户 进程 的 创建 以 及 把 控制 权 转 移 到 其 中 某 个 进程 。 


计算 机 启动 是 一 个 元 长 乏味 的 任务 , 因为 最 开始 时 几乎 每 个 硬件 设备 (包括 RAM ) 都 处 
于 一 种 随机 的 、 不 可 预知 的 状态 。 此 外 ,启动 过 程 在 很 大 程度 上 都 依赖 于 计算 机 的 体系 
结构 ， 和 以 前 一 样 ， 我 们 在 本 附录 中 特 指 80x86 体系 结构 。 


史前 时 代 : BIOS 


计算 机 在 加 电 的 那 一 刻 几 乎 是 毫 无 用 处 的 ， 因 为 RAM 心 片 中 包含 的 是 随机 数据 ， 此 时 
还 没有 操作 系统 在 运行 。 在 开始 启动 时 , 有 一 个 特殊 的 硬件 电路 在 CPU 的 一 个 ?| 脚 上 产 
生 一 个 RESET 还 辑 值 .在 RESET 产 生 以 后 , 就 把 处 理 器 的 一 些 寄存 器 (包括 cs 和 eip) 
设置 成 固定 的 值 ， 并 执行 在 物理 地 址 0xfffffff0 处 找到 的 代码 。 硬件 把 这 个 地 址 映射 
”到 某 个 只 读 、 持久 的 存储 芯片 中 ,该 芯片 通常 称 为 ROM (Read-Only Memory， 只 读 内 
存 )。 ROM 中 所 存放 的 程序 集 在 80x86 体 系 中 通常 叫 作 基本 输入 /输出 系统 (Basic Input/ 
Output System, B10S), 因为 它 包括 几 个 中 断 驱 动 的 低级 过 程 。 所 有 操作 系统 在 启动 时 ， 
都 要 通过 这 些 过 程 对 计算 机 硬件 设备 初始 化 。 一 些 操作 系统 ， 如 微软 的 MS-DOS,， 依赖 


于 BIOS 实现 大 部 分 系统 调用 。 825 
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Linux 一 旦 进入 保护 模式 (参见 第 二 章 “ 硬 件 中 的 分 段 ” 一 市 )， 就 不 再 使 用 BIOS， 而 
是 为 计算 机 上 的 每 个 硬件 设备 提供 各 自 的 设备 驱动 程序 。 实 际 上 ， 因 为 BIOS 过 程 必须 
在 实 模 式 下 运行 ， 所 以 即使 有 益 ， 两 者 之 间 也 不 能 共享 钞 数 。 


BIOS 使 用 实 模式 的 地 址 ， 因 为 在 计算 机 加 电 启 动 时 只 有 这 些 可 以 使 用 。 一 个 实 模 式 的 
地 址 由 一 个 seg 段 和 一 个 of 偏 移 量 组 成 。 相 应 的 物理 地 址 可 以 这 样 计 算 ; seg * 16 + 
off。 所 以 CPU 导 址 电路 根本 就 不 需要 全 局 描述 符 表 、 局 部 描述 符 表 或 者 页 表 把 逻辑 地 
址 转换 成 物理 地 址 。 显然, 对 GDT、LDT 和 页 表 进 行 初始 化 的 代码 必须 在 实 模式 下 运行 。 


Linux 在 启动 阶段 必须 使 用 BIOS, 此 时 Linux 必须 要 从 磁盘 或 者 其 他 外 部 设备 中 获取 内 
核 映 像 。BIOS 启动 过 程 实际 上 执行 以 下 4 个 操作 : 


1]. ”对 计算 机 硬件 执行 一 系列 的 测试 ,用 来 检测 现在 都 有 什么 设备 以 及 这 些 设备 是 否 正 
常 工 作 。 这 个 阶段 通常 称 为 POST (Power-On Self-Test,， 上 电 自 检 )。 在 这 个 阶段 
中 ， 会 显示 一 些 信息 ， 例 如 BIOS 版 本 号 。 
如 今 的 80x86、AMD64 和 Itanium 计算 机 使 用 高 级 配置 与 开机 界面 (Advanced 
Configuration and Power Interface，ACPI) 标准 。 在 ACPI 兼容 的 BIOS 中 ， 启 
动 代 码 会 建立 几 个 表 来 描述 当前 系统 中 的 硬件 设备 ,这 些 表 的 格式 独立 于 设备 生产 
商 ， 而 且 可 由 操作 系统 读 取 以 获得 如 何 调用 这 些 设备 的 信息 。 


2. 初始 化 硬件 设备 。 这 个 阶段 在 现代 基于 PCI 的 体系 结构 中 相当 重要 , 因为 它 可 以 保 
证 所 有 的 硬件 设备 操作 不 会 引起 IRQ 线 与 IO 端口 的 冲突 。 在 本 阶段 的 最 后 , 会 显 
示 系 统 中 所 安装 的 所 有 PCI 设备 的 一 个 列表 。 

3. ”搜索 一 个 操作 系统 来 启动 。 实 际 上 , 根据 BIOS 的 设置 这 个 过 程 可 能 要 试图 访问 
(按照 用 户 预 定义 的 次 序 ) 系统 中 软盘 .硬盘 和 CD-ROM 的 第 一 个 饥 区 (引导 扁 区 )。 

4. 只 要 找到 一 个 有 效 的 设备 ， 就 把 第 一 个 扇 区 的 内 容 拷 贝 到 RAM 中 从 物理 地 址 
0x00007c00 开 始 的 位 置 , 然后 跳 转 到 这 个 地 址 处 , 开始 执行 刚才 装载 进来 的 代码 。 


本 附录 其 余 的 部 分 会 带 你 体验 从 最 原始 的 开始 状态 到 运行 Linux 系统 的 整个 历程 。 


远古 时 代 : 引导 装 入 程序 


引导 六 入 程序 (boor loader) 是 由 BIOS 用 来 把 操作 系统 的 内 核 映 像 装 载 到 RAM 中 所 - 
调用 的 一 个 程序 。 让 我 们 简要 地 描绘 一 下 引导 装 入 程序 在 IBM 的 PC 体系 结构 中 是 如 何 
工作 的 。 


为 了 从 软盘 上 启动， 必须 把 第 一 个 遍 区 中 所 存放 的 指令 装载 到 RAM 中 并 执行 ， 这 些 指 
令 再 把 包含 内 核 映 像 的 其 他 所 有 遍 区 都 拷贝 到 RAM 中 。 
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从 硬盘 启动 的 实现 有 点 不 同 。 硬盘 的 第 一 个 遍 区 称 为 主 引 导 记 录 (Master Boot Record， 
MBR) ， 该 遍 区 中 包括 分 区 表 (〈 注 1) 和 一 个 小 程序 , 这 个 小 程序 用 来 装载 被 启动 的 操作 
系统 所 在 分 区 的 第 一 个 遍 区 。 诸 如 Microsoft Windows 98 之 类 的 操作 系统 使 用 分 区 表 
中 所 包含 的 一 个 活动 (active) 标志 来 标识 这 个 分 区 〈 注 2)。 按 照 这 种 方法 ， 只 有 那些 
内 核 映 像 存 放 在 活动 分 区 中 的 操作 系统 才 可 以 被 启动 。 正 如 我 们 将 在 后 面 看 到 的 一 样 ， 
Linux 的 处 理 方式 更 加 灵活 , 因为 Linux 使 用 一 个 巧妙 的 引导 装 入 程序 取代 这 个 MBR 中 
不 完善 的 程序 ， 它 允许 用 户 来 选择 要 启动 的 操作 系统 。 


Linux 早 期 版 本 (一 直到 2.4 系 列 ) 的 内 核 映像 ,在 第 一 个 512 字 节 有 一 个 最 小 的 引导 装 
入 程序 ， 因 此 在 第 一 扇 区 拷贝 一 个 内 核 映像 就 可 以 使 软盘 可 启动 。 但 是 在 Linux 2.6 中 
就 不 再 有 这 样 的 引导 装 入 程序 , 所 以 要 从 软盘 启动 , 就 必须 在 第 一 个 磁盘 扁 区 存放 一 个 
合适 的 引导 装 入 程序 。 而 现在 从 软盘 启动 与 从 硬盘 或 CD-ROM 启动 是 十 分 相似 的 。 


从 磁盘 局 动 Linux 


从 磁盘 启动 Linux 内 核 需要 一 个 两 步 的 引导 装 人 程序 .在 80x86 体 系 中 , 众所周知 的 Linx 
引导 装 人 程序 叫 作 LInux LOader (LILO) 。 确 实 还 有 一 些 80x86 体系 的 引导 装 人 程序 ， 
如 广泛 使 用 的 GRand Unified Bootloader (GRUB ) 。GRUB 比 LILO 更 为 先进 ， 因 为 它 
可 识别 多 个 基于 磁盘 的 文件 系统 ， 而 且 可 以 从 文件 中 读 和 人 部 分 引导 程序 。 当 然 ， 对 于 
Linux 支持 的 所 有 体系 结构 都 有 各 目 专 门 的 引导 闭 入 程序 。 


LILO 或 许 被 装 在 MBR 上 (代替 那个 装载 活动 引导 访 区 的 小 程序 ),， 或 许 被 装 在 每 个 磁 
盘 分 区 的 引导 局 区 上 。 在 这 两 种 情况 下 , 最终 的 结果 是 相同 的 : 装 和 人 程序 在 启动 过 程 中 
被 执行 时 ， 用 户 都 可 以 选择 装 入 哪个 操作 系统 。 


实际 上 ，LILO 引导 装 入 程序 被 分 为 两 部 分 ， 因 为 不 划分 的 话 ， 它 就 太 大 而 无 法 装 进 单 
个 遍 区 。MBR 或 者 分 区 引导 局 区 包括 一 个 小 的 引导 装 人 程序 , 由 BIOS 把 这 个 小 程序 装 
入 从 地 址 0x00007c00 开始 的 RAM 中 。 这 个 小 程序 又 把 自己 移 到 地 址 0x00096a00， 建 
立 实 模式 栈 (0x00098000~-0x000969ff)， 并 把 LILO 的 第 二 部 分 装 人 到 从 地 址 
0x00096c00 开始 的 RAM 中 。 


第 二 部 分 又 依次 从 磁盘 读 取 可 用 操作 系统 的 映射 表 , 并 提供 给 用 户 一 个 提示 符 , 因此 用 
户 就 可 以 从 中 选择 一 个 操作 系统 。 最 后 ,用户 选择 了 被 六 入 的 内 核 后 (或 经 过 一 个 延迟 


注 下 每 个 分 区 表 项 通常 包含 分 区 的 起 止 扁 区 和 处 理 它 的 操作 系统 类 型 。 
注 2: 活动 标志 可 由 程序 fdisk 设置。 
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有 时间 以 使 LILO 选择 一 个 缺 省 值 ) ， 引 导 装 人 程序 就 可 以 把 相应 分 区 的 引导 局 区 拷贝 到 
RAM 中 并 执行 它 ， 或 直接 把 内 核 映 像 拷贝 到 RAM 中 。 


假定 Linux 内 核 映 像 必 须 被 导入 ,LILO 引导 装 入 程序 依赖 于 BIOS 例 程 , 主要 执行 如 下 
步骤 : 


1. 调用 一 个 BIOS 过 程 显 示 “Loading” 信 息 。 


2， 调用 一 个 BIOS 过 程 从 磁盘 装 入 内 核 映 像 的 初始 部 分 ， 即 将 内 核 映 像 的 第 一 个 512 
字 节 从 地 址 0x00090000 开 始 存 和 人 RAM 中, 而 将 setup () 国 数 的 代码 (参见 下 面 ) 
从 地 址 0x00090200 开始 存 人 RAM 中 。 


3. 调用 一 个 B1OS 过 程 从 磁盘 中 装载 其 余 的 内 核 映 像 ， 并 把 内 核 映 像 放 入 从 低地 址 
0x00010000 (适用 于 使 用 make zImage 编译 的 小 内 核 映像 ) 或 者 从 高 地 址 
0x00100000 (适用 于 使 用 make bzImage 编译 的 大 内 核 映像 ) 开始 的 RAM 中 ,在 
以 下 的 讨论 中 , 我们 将 分 别称 内 核 映 像 是 “ 低 装 载 ” 到 RAM 中 或 者 “高 装载 ”到 
RAM 中 。 大 内 核 映像 的 支持 虽然 本 质 上 与 其 他 启动 模式 相同 , 但 是 它 却 把 数据 放 
在 不 同 的 物理 内 存 地 址 , 以 避免 在 第 二 章 “ 物 理 内 存 布 局 ”一 节 所 介绍 的 1SA 黑洞 
同 题 。 


4. ” 跳 转 到 setup () 代码。 


中 世纪 : setup() 函 数 


setup () 汇编 语言 邱 数 的 代码 由 链接 程序 放 在 内 核 映 像 文件 的 偏 移 量 0x200 处 。 引 导 装 和 人 
程序 因此 就 可 以 很 容易 地 确定 setup () 代 码 的 位 置 ,并 把 它 拷贝 到 从 物理 地 址 0x00090200 
开始 的 RAM 中 。 


setup () 国 数 必 须 初 始 化 计算 机 中 的 硬件 设备 ， 并 为 内 核 程序 的 执行 建立 环境 。 虽 然 
BIOS 已 经 初始 化 了 大 部 分 硬件 设备 , 但 是 Linux 并 不 依赖 于 BIOS ， 而 是 以 自己 的 方式 
重新 初始 化 设备 以 增强 可 移植 性 和 健壮 性 。setup () 本 质 上 执行 以 下 操作 


1. 在 ACPI 兼 容 的 系统 中 , 它 调用 一 个 BIOS 例 程 , 以 在 RAM 中 建 并 系统 物理 内 存 布 
局 表 (通过 检索 “10S-e820” 标 签 ,就 可 在 引导 内 核 信 息 中 看 到 该 表 )。 在 早期 系 
统 中 ， 它 调用 BIOS 例 程 ， 返回 系统 可 用 内 存 。 


2. ”设置 键盘 重复 延 时 和 速率 ( 当 用 户 一 直 按 下 一 个 键 超过 一 定 的 时 间 , 键盘 设备 就 反 
复 地 间 CPU 发 送 相 应 的 键盘 码 )。 


3. 初始 化 视频 卡 。 
4. 重新 初始 化 磁盘 控制 器 并 检测 硬盘 参数 。 
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检查 IBM 微 通道 总 线 (MCA ) 。 

检查 PS/2 指针 设备 〈 总 线 鼠 标 ) 。 

检查 对 高 级 电源 管理 (APM) BIOS 的 支持 。 

如 果 BIOS 支持 增强 磁盘 驱动 服务 (Enhanced Disk Drive Service，EDD)， 它 就 
调用 相应 的 BIOS 过 程 在 RAM 中 建立 系统 可 用 硬盘 表 ( 表 中 的 信息 可 以 通过 sysfs 
特殊 文件 系统 的 firmware/edd 目录 查看 )。 

如 果 内 核 映像 被 低 装 载 到 RAM 中 (在 物理 地 址 0x00010000 处 ), 就 把 它 移动 到 物 
理 地 址 0x00001000 处 。 反 之 ,如 果 内 核 映 像 被 高 装载 到 RAM 中 , 就 不 用 移动 。 这 
个 步骤 是 必需 的 , 因为 为 了 能 在 软盘 上 存储 内 核 映像 并 节省 启动 的 有 时间, 存放 在 磁 
盘 上 的 内 核 遇 像 都 是 压缩 的 ， 解 压 程序 需要 一 些 空间 空间 作为 量 时 缓冲 区 (在 
RAM 中 紧 挨 内 核 映 像 的 地 方 )。 

置 位 8042 键盘 控制 器 的 A20 引 脚 。A205| 脚 是 在 80286 系统 中 引入 的 ， 为 的 是 与 
古老 的 8088 微 处 理 器 物理 地 址 兼容 。 不幸 的 是 ,在 切换 到 保护 模式 之 前 必须 将 A20 
引 脚 正确 置 位 ， 耕 则 ， 每 个 物理 地 址 的 第 21 位 都 会 被 CPU 看 作 0。 置 位 A20 5 引 脚 
是 件 计 大 的 事情 。 

建立 一 个 临时 中 断 描述 符 表 (IDT) 和 一 个 临时 全 局 描述 符 表 (GDT ) 。 

如 果 需 要 ， 重 置 浮 点 单元 (FPU ) 。 

重新 编写 可 编程 中 断 控 制 器 (Programmable Interrupt Controller，PIC ) ， 以 屏蔽 
所 有 中 断 ， 但 保留 IRQ2， 它 是 两 个 PIC 之 上 的 级 联 中 断 。 

通过 设置 cr0 状态 寄存 器 中 的 PE 位 ， 把 CPU 从 实 模式 切换 到 保护 模式 。cr0 状 
态 寄 存 器 中 的 PG 位 被 清 0， 因 此 分 页 还 没有 启用 。 

跳 转 到 startup_32 () 汇 编 语 言 国 数 。 


文艺 复兴 时 期 ，startup_32() 函 数 


有 两 个 不 同 的 startup_321() 国 数 ， 我 们 此 处 所 指 的 是 在 arch/i386/boot/compressed/ 
head.$ 文件 中 实现 的 那 一 个 。 在 setup () 结 束 之 后 ，startup_32 () 就 已 经 被 移动 到 物 
理 地 址 0x00100000 处 或 者 0x00001000 处 ,这 取决 于 内 核 映 像 是 被 高 装载 到 RAM 中 还 
是 低 装 载 到 RAM 中 。 


该 函数 执行 以 下 操作 : 


1. 初始 化 段 寄 存 器 和 一 个 临时 堆栈 。 


030 


5. 
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清 零 eflags 寄存 器 的 所 有 位 。 


用 0 填充 由 _edata 和 _end 符 号 标识 的 内 核 未 初始 化 数据 区 (参见 第 二 章 的 “物理 
内 存 布局 ”一 市)。 


调用 decompress_kernel() 梁 数 来 解压 内 核 映 像 。 首 先 显 示 “Uncompressing 
Linux . . .” 信 息 。 完 成 内 核 映 像 的 解压 之 后 ， 显 示 “OK, booting the kernel.” 信 
息 。 如 果 内 核 映 像 是 低 装 载 的 ， 那么 解压 后 的 内 核 就 被 放 在 物理 地 址 0x00100000 
处 。 否则 , 如 果 内 核 映像 是 高 装载 的 , 那么 解压 后 的 内 核 就 被 放 在 位 于 这 个 压缩 映 
像 之 后 的 临时 缓冲 区 中 。 然 后 ， 解 压 后 的 映像 就 被 移动 到 从 物理 地 址 0x00100000 
开始 的 最 终 位 置 。 


跳 转 到 物理 地 址 0x00100000 处 。 


解压 的 内 核 映 像 以 包含 在 arch/i386/kernel/head.$S 中 的 另 一 个 startup_32() 范 数 开 始 。 
这 两 个 国 数 使 用 相同 的 名 字 不 会 产生 任何 问题 〈 除 了 使 读者 容易 混 请 外 ) ， 因 为 这 两 个 
国 数 会 跳 转 到 自己 的 起 始 物理 地 址 去 执行 。 


第 二 个 startup_32 () 国 数 为 第 一 个 Linux 进程 (进程 0) 建立 执行 环境 。 该 函数 执行 以 
下 操作 : 


] 
2. 
3. 


把 段 寄存 器 初始 化 为 最 终 值 。 
把 内 核 的 bss 段 填充 为 0 (参见 第 二 十 章 “ 程 序 段 和 进程 的 内 存 区 域 ” 一 节 )。 


初始 化 包含 在 swapper_pg_dqir 的 临时 内 核 页 表 ,， 并 初始 化 p90，, 以 使 线性 地 址 一 
致 地 映射 同一 物理 地 址 ， 这 在 第 二 章 “ 内 核 页 表 ” 一 节 已 经 作 了 说 明 。 


把 页 全 局 目录 的 地 址 存放 在 cr3 寄 存 器 中 ,并 通过 设置 cr0 寄 存 器 的 PG 位 启用 分 页 。 
为 进程 0 建立 内 核 态 堆栈 (参见 第 三 章 的 “内 核 线程 ”一 节 )。 
该 国 数 再 一 次 清 老 eflags 寄存 器 的 所 有 位 。 


调用 setup_idt () 用 空 的 中 断 处 理 程序 填充 IDT (参见 第 四 章 的 “IDT 的 初步 初始 
化 ”一 市)。 


把 从 BIOS 中 获得 的 系统 参数 和 传递 给 操作 系统 的 参数 放 人 第 一 个 页 框 中 (参见 第 
二 章 的 “物理 内 存 布局 ”一 节 )。 


识别 处 理 器 的 型 号 。 
用 GDT 和 IDT 表 的 地 址 来 填充 gatr 和 idtr 寄存 器 。 
跳 转 到 start_kernel() 国 数 。 
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现代 :start_kernel() 函 数 


start_kernel() 国 数 完成 Linux 内 核 的 初始 化 工作 。 几 乎 每 天 内 核 部 件 都 是 由 这 个 团 
数 进 行 初 始 化 的 ， 我 们 只 提 及 其 中 的 少 部 分 : 


调用 schea_init () 函数 来 初始 化 调度 程序 (参见 第 七 章 )。 

调用 build_all_zonelists() 函 数 来 初始 化 内 存 管理 区 (参见 第 八 章 “内 存 管理 
区 0)s 

调用 page_alloc_init () 函 数 来 初始 化 伙伴 系统 分 配 程序 (参见 第 八 章 “伙伴 系 
统 算法 ”一 市 )。 

调用 trap_init () 函 数 (参见 第 四 章 “ 异 常 处 理 ” 一 节 ) 和 init_IRQ() 困 数 ( 参 
见 第 四 章 “IRQ 数据 结构 ”一 市 ) 以 完成 IDT 初始 化 。 

调用 softirqg_init () 国 数 初 始 化 TASKLRET_SOFTIRQ 和 HI_SOFTIRO (参见 第 
四 章 “ 软 中 断 ” 一 市 )。 

调用 time_init () 国 数 来 初始 化 系统 日 期 和 时 间 (参见 第 六 章 “Linux 计时 体系 结 
构 ” 一 节 )。 

调用 kamem_cache_init () 函数 来 初始 化 slab 分 配器 (参见 第 八 章 的 “普通 和 专用 
高 速 缓存 ”一 市 )。 

调用 calibrate_delay () 函数 以 确定 CPU 时 钟 的 速度 〈 参 见 第 六 章 “ 延 迟 函 数 ” 
1 

调用 kernel_thread() 函 数 为 进程 1 创建 内 核 线 程 。 正 如 我 们 在 第 三 章 的 “内 核 


线程 ”一 节 中 已 经 描述 的 一 样 ， 这 个 内 核 线程 又 会 创建 其 他 的 内 核 线程 并 执行 / 
sbin/init 程序 。 


在 start_kernel() 开 始 执 行 之 后 会 显示 “Linux version 2.6.11 . . .” 信 息 ， 除 此 之 外 ， 
在 init 程序 和 内 核 线 程 执行 的 最 后 阶段 还 会 显示 很 多 其 他 信息 。 最 后 ， 就 会 在 控制 台 上 
出 现 熟悉 的 登录 提示 符 (如 果 在 启动 时 所 启动 的 是 X Window 系统 ,那么 登录 提示 符 就 
会 出 现在 一 个 图 形 窗 口中 ) ， 通 知 用 户 Linux 内 核 已 经 启动 ， 现 在 正在 运行 。 
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正如 我 们 在 第 一 章 中 所 介绍 的 那样 ， 模块 (module) 是 Linux 用 来 高 效 地 利用 微 内 核 的 
理论 优点 而 不 会 降低 系统 性 能 的 一 种 方法 。 


是 否 使 用 模块 ? 


当 系 统 程序 员 希 望 给 Linux 内 核 增 加 新 功能 时 , 就 面临 一 个 进退 两 难 的 问题 ; 他 们 应 该 编 
写 新 代码 从 而 将 其 作为 一 个 模块 进行 编译 ， 还 是 应 该 将 这 些 代 码 静态 地 链接 到 内 核 中 ? 


通 贡 ,系统 程序 员 都 倾向 于 把 新 代码 作为 一 个 模块 来 实现 。 因 为 模块 可 以 根据 需要 进行 
链接 , 这 样 内 核 就 不 会 因为 装载 那些 数 以 百 计 的 很 少 使 用 的 程序 而 变 得 非常 庞大 , 这 一 
点 我 们 后 面 就 会 看 到 。 几 乎 Linux 内 核 的 每 个 高 层 组 件 一 一 文件 系统 、 设 备 张 动 程序 、 
可 执行 格式 、 网 络 层 等 等 一 一 都 可 以 作为 模块 进行 编译 。Linux 的 发 布 版 ， 充 分 使 用 
模块 方式 全 面 地 支持 多 种 硬件 设备 。 例 如 , 发 布 版 中 会 将 几 十 种 声卡 驱动 程序 模块 放 在 
某 个 日 录 下 ,但 是 在 某 个 计算 机 上 只 会 有 效 加 载 其 中 一 个 声卡 驱动 程序 。 


然而 ， 有些 Linux 代码 必须 被 静态 链接 ， 也 就 是 说 相应 组 件 或 者 被 包含 在 内 核 中 ,或 者 
根本 不 被 编译 。 典 型 情况 下 , 这 发 生 在 组 件 需 要 对 内 核 中 静态 链接 的 某 个 数据 结构 或 国 
数 进行 修改 时 。 


例如 ， 假 设 某 个 组 件 必须 在 进程 描述 符 中 引入 新 字段 。 链 接 一 个 模块 并 不 能 修改 诸如 
task_struct 之 类 已 经 定义 的 数据 结构 ， 因 为 即使 这 个 模块 使 用 其 数据 结构 的 修改 版 ， 
所 有 静态 链接 的 代码 看 到 的 仍 是 原来 的 版 本 , 这 样 就 很 容易 发 生 数据 崩溃 。 对 此 问题 的 
一 种 局 部 解决 方法 就 是 “静态 地 ”把 新 字段 加 到 进程 描述 符 ， 从 而 让 这 个 内 核 组 件 可 以 
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使 用 这 些 字段 , 而 不 用 考虑 组 件 究竟 是 如 何 被 链接 的 。 然 而 ,如果 该 内 核 组 件 从 未 被 使 
用 , 那么 , 在 每 个 进程 描述 符 中 都 复制 这 些 额外 的 字段 就 是 对 内 存 的 浪费 。 如 果 新 内 核 
组 件 对 进程 描述 符 的 大 小 有 很 大 的 增加 ， 那 么 ， 只 有 新 内 核 组 件 被 静态 地 链接 到 内 核 ， 
才 可 能 通过 在 这 个 数据 结构 中 增加 需要 的 字段 获得 较 好 的 系统 性 能 。 


再 例如 ， 考 虑 一 个 内 核 组 件 ， 它 楼 替换 静态 链接 的 代码 。 显 然 ， 这样 的 组 件 不 能 作为 一 个 
模块 来 编译 ， 因 为 在 链接 模块 时 内 核 不 能 修改 已 经 在 RAM 中 的 机 器 码 。 例 如 ， 系 统 不 可 
能 链接 一 个 改变 页 框 分 配方 法 的 模块 ,因为 伙伴 系统 函数 总 是 被 静态 地 链接 到 内 核 ( 注 1)。 


内 核 有 两 个 主要 的 任务 来 进行 模块 的 管理 。 第 一 个 任务 是 确保 内 核 的 其 他 部 分 可 以 访问 
该 模块 的 全 局 符号 , 例如 指向 模块 主 函 数 的 和 人口。 模块 还 必须 知道 这 些 符号 在 内 核 及 其 
他 模块 中 的 地 址 。 因 此 ， 在 链接 模块 时 ， 一 定 要 解决 模块 间 的 引用 关系 。 第 二 个 任务 是 
记录 模块 的 使 用 情况 , 以 便 在 其 他 模块 或 者 内 核 的 其 他 部 分 正在 使 用 这 个 模块 时 , 不 能 
印 载 这 个 模块 。 系 统 使 用 了 一 个 简单 的 引用 计数 器 来 记录 每 个 模块 的 引用 次 数 。 


模块 许可 证 


Linux 内 核 许 可 证 GPL, 版 本 2) 不 限制 用 户 与 企业 使 用 其 源 代码 ,但 是 它 严 格 禁 止 在 
韭 GPL 许 可 证 下 发 行 相关 的 源 代 码 , 而 这 些 代 码 起 源 于 或 大 部 分 起 源 于 Linux 代码 。 也 
就 是 说 ， 内 核 开发 者 要 确保 他 们 的 代码 及 其 衍生 代码 可 由 所 有 用 户 自由 使 用 。 


但 是 , 模块 对 这 一 机 制造 成 了 威胁 。 可 能 有 人 只 发 行 -- 个 用 于 Linux 内 核 的 二 进 制 格式 
模块 ;例如 ,厂商 可 能 只 以 二 进 制 格式 模块 发 行 一 个 硬件 驱动 程序 。 现 在 ,这 种 情况 较 
为 少见 ,理论 上 说 , Linux 内 核 的 特性 和 功能 可 被 只 有 二 进 制 格 式 的 模块 极 大 地 改变 , 从 
而 把 基于 Linux 的 内 核 转 变 成 商业 产品 。 


因此 , Linux 内 核 开 发 者 社团 不 太 接受 只 有 二 进 制 格式 的 模块 。Linux 模块 的 实现 就 反映 
出 这 一 点 。 一 般 地 , 使 用 MODULE_LICENSE 宏 ,每 个 模块 开发 者 应 当 在 模块 源 代码 中 
标 出 许可 证 类 型 。 如 果 许 可 证 是 韭 GPL 兼容 (或 根本 没有 标 出 )， 模块 就 不 能 使 用 内 核 
的 许多 核心 国 数 和 数据 结构 。 而 且 ,， 使 用 非 GPL 许可 证 的 模块 会 “天 污 ” 内 核 ， 也 就 是 
说 内 核 开 发 者 不 再 考虑 内 核 中 可 能 的 缺陷 。 


注 |: 你 可 能 终老 为 什么 不 把 你 所 钟爱 的 内 核 组 件 模块 化 。 实 际 上 ,总 的 原因 是 软件 许可 证 的 
问题 , 而 不 是 技术 原因 。 内 核 开 发 者 想 确 保 核心 组 件 永远 不 会 被 仅 发 布 二 进 制 “黑金 模 
块 的 私有 代码 所 代替 。 
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模块 的 实现 

模块 是 作为 ELF 对 象 文件 存放 在 文件 系统 中 的 ， 并 通过 执行 insmod 程序 链接 到 内 核 中 
(参见 后 面 的 “模块 的 链接 和 取消 ”一 节 )。 对 于 每 个 模块 ， 系统 都 分 配 一 个 包含 以 下 数 
据 的 内 存 区 : 

e 一 个 module 对 象 

。 ”表示 模块 名 的 一 个 以 null 结束 的 字符 串 (所 有 的 模块 都 必须 有 了 唯一 的 名 字 ) 

。 ”实现 模块 功能 的 代码 

moqule 对 象 摘 述 一 个 模块 ， 其 字段 如 表 B-1 所 示 。 一 个 双向 循环 列表 存放 所 有 module 


对 象 。 链 表 头 部 存放 在 modqules 变量 中 ， 而 指向 相 邻 单元 的 指针 存放 在 每 个 module 对 
象 的 1ist 字段 中 。 


表 B-1: module 对 象 


类 型 字段 名 说 明 

enum module state state 模块 的 内 部 状态 

struct list. head list 模块 链表 的 指针 

char [60] name 模块 名 

struct mkobj 包含 一 个 kobject 数据 结构 

module kobject 和 指向 这 个 模块 对 象 的 指针 

struct param attrs 指向 模块 参数 描述 符 数组 的 指针 

module param attrs * 

const struct syms 指向 导出 符号 数组 的 指针 

kernel_symbol * 

unsigned int num_ syms 导出 符号 数 

const unsigned long * crcs 指 回 导出 符号 CRC 值 数 组 的 指针 

const struct gpl_syms 指向 GPL 格式 导出 符号 数组 的 指针 

kernel]_ symbol * 

unsigned int num gpl_syms GPL 格式 导出 符号 数 

const unsigned long * gpl_crcs 指向 GPL 格式 导出 符号 CRC 值 数组 的 
指针 

unsigned int num_exentries 模块 异常 表 项 数 

const struct extable 指向 模块 异常 表 的 指针 


exception_ table entry 六 


模块 


表 B-1:， module 对 象 〈 续 ) 


类 型 
int (*) (void) 
VOld * 


VOId * 


unsigned long 


unsigned long 
unsigned long 
unsigned long 
struct 
mod_arch_specific 
int 

int 

struct 

module ref [NR_CPUS] 


struct list_head 


struct task struct * 
VOid (*) (void) 


Elf_Sym * 

unsigned long 

char * 

struct 
module_sect_attrs * 


VO1ld * 


char * 


字段 名 
init 
module init 


module_core 


init_size 


Core_size 

init text_ size 
Core text_ size 
arch 

unsafe 
license_gplok 
ref 

modules which_ 
USe_me 

walter 

exit 

symtab 

num symtab 
strtab 


Sect_attrs 


percpu 


argS 


GT 


说 明 

模块 初始 化 方法 

用 于 模块 初始 化 的 动态 内 存 区 指针 
用 干 模块 核心 尔 数 与 数据 结构 的 动态 内 
存 区 指针 

用 于 模块 初始 化 的 动态 内 存 区 大 小 
用 于 模块 核心 函数 与 数据 结构 的 动态 内 
存 区 大 小 

模块 初始 化 的 可 执行 代码 大 小 , 只 当 链 
接 模块 时 使 用 

模块 核心 可 执行 代码 大 小 , 只 当 链 接 模 
块 时 使 用 

依赖 于 体系 结构 的 字段 (80 x 86 结构 
中 没有 ) 

如 果 模 块 不 能 安全 捷 载 , 则 将 该 标志 置 
位 

如 果 模 块 许可 证 是 GPL 兼容 的 ， 则 将 
该 标志 置 位 

每 CPU 使 用 计数 器 


依赖 于 该 模块 的 模块 链表 


正印 载 模块 的 进程 
模块 退出 方法 


/proc/kallsyms 文件 中 所 列 模 块 ELF 符 
号 数组 指针 


/proc/kallsyms 文件 中 所 列 模块 ELF 符 
号 数 

/proc/kallsyms 文件 中 所 列 模块 ELF 符 
号 的 字符 串 表 

模块 分 市 属 性 描述 符 数组 指针 (在 
sysfs 文件 系统 中 显示 ) 

特定 于 CPU 的 内 存 区 指针 

链接 模块 时 使 用 的 命令 行 参数 
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state 字 段 记 录 模 块 内 部 状态 ， 它 可 以 是 : MODULE_STATE_LIVE (模块 为 活动 的 )、 
MODULE_STATE_COMING (模块 正在 初始 化 ) 和 MODULE_STATE_GOING (模块 正在 
印 载 )。 


正如 我 们 在 第 十 章 的 “动态 地 址 检查 : 修正 代码 ”一 节 中 已 经 介绍 的 那样 ， 每 个 模块 都 
有 自己 的 异常 表 。 该 表 包 括 (如 果 有 ) 模块 的 修正 代码 的 地 址 。 在 链接 模块 时 ,该 表 被 
拷贝 到 RAM 中 ， 其 开始 地 址 保存 在 module 对 象 的 extable 字段 中 。 


模块 使 用 计数 器 


每 个 模块 都 有 一 组 使 用 计数 器 , 每 个 CPU 一 个 , 存放 在 相应 module 对 象 的 ref 字段 中 。 
在 模块 功能 所 涉及 的 操作 开始 执行 时 递增 这 个 计数 器 ， 在 操作 结束 时 递减 这 个 计数 器 。 
只 有 所 有 使 用 计数 器 的 和 为 0 时， 模块 才 可 以 被 取消 链接 。 


例如 ， 假 设 MS-DOS 文件 系统 层 作 为 模块 被 编译 ， 而 且 这 个 模块 已 经 在 运行 时 被 链接 。 
最 开始 时 ， 该 模块 的 引用 计数 器 是 0。 如 果 用 户 装 载 一 张 MS-DOS 软盘 ， 那 么 模块 引用 
计数 器 其 中 的 一 个 就 被 递增 1。 反 之 ， 当 用 户 印 载 这 张 软盘 时 ,计数 器 其 中 之 一 就 被 减 
(甚至 不 是 刚才 递增 的 那 一 个 )。 模 块 的 总 的 引用 计数 器 就 是 所 有 CPU 计数 器 的 总 和 。 


导出 符号 


当 链 接 一 个 模块 时 ,必须 用 合适 的 地 址 替换 在 模块 对 象 代 码 中 引用 的 所 有 全 局 内 核 符号 
(变量 和 函数 )。 这 个 操作 与 在 用 户 态 编译 程序 时 链接 程序 所 执行 的 操作 非常 类 似 (参见 
第 二 十 章 的 “ 库 ” 一 节 )， 这 是 委托 给 insmod 外 部 程序 完成 的 (将 在 后 面 的 “模块 的 链 
接 和 取消 ”一 市 进行 介绍 )。 


内 核 使 用 一 些 专门 的 内 核 符号 表 (kernel symbol table), 用 于 保存 模块 访问 的 符号 和 相应 的 
地 址 。 它 们 在 内 核 代码 段 中 分 三 个 节 : _ _kstrtab 节 (保存 符号 名 )、_ _ksymtab 节 【〈 所 
有 模块 可 使 用 的 符号 地 址 ) 和 _ksymtab gp1 节 (GPL 兼容 许可 证 下 发 布 的 模块 可 以 使 用 
的 符号 地 址 ) 。 当 用 于 静态 链接 内 核 代 码 内 时 , EXPORT_SYMBOL 与 EXPORT_SYMBOL_GPL 
宏 让 C 编译 器 分 别 往 _ _ksymtab 和 和 _ksymtab_gpl 部 分 相应 地 加 入 一 个 专用 符号 。 


只 有 某 一 现 有 的 模块 实际 使 用 的 内 核 符号 才 会 保存 在 这 个 表 中 。 如 果 系 统 程序 员 在 某 些 
模块 中 需要 访问 一 个 尚未 导出 的 内 核 符 号 ， 那 么 他 只 要 在 Linux 源 代 码 中 增加 相应 的 
EXPORT_SYMBOL_GPL 宏 就 可 以 了 。 当 然 ， 如 果 许 可 证 不 是 GPL 兼容 的 ， 他 就 不 能 为 
模块 合法 导出 一 个 新 符号 。 


已 链接 的 模块 也 可 以 导出 自己 的 符号 ,这 样 其 他 模块 就 可 以 访问 这 些 符 号 。 模 块 符号 部 分 
表 (module sympbol table) 保 存在 模块 代码 段 的 _ _ksymtap、 _ksymtab gp1 和 __Kkstrtab 
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部 分 中 。 要 从 模块 中 导出 符号 的 一 个 子 集 , 程序 员 可 以 使 用 上 面 描述 的 EXPORT_SYMBOL 和 
EXPORT_SYMBOL_GPL 宏 。 当 模块 链接 时 , 模块 的 导出 符号 被 拷贝 到 两 个 内 存 数组 中 , 而 
其 地 址 保存 在 mogule 对 象 的 syms 和 gpl_syms 字段 中 。 


模块 依赖 

一 个 模块 (B) 可 以 引用 由 另 一 个 模块 (A) 所 导出 的 符号 ， 在 这 种 情况 下 ， 我 们 就 说 B 
装载 在 A 的 上 面 ,或 者 说 A 被 B 使 用 。 为 了 链接 模块 B， 必 须 首先 链接 模块 A， 否则 ， 
对 于 模块 A 所 导出 的 那些 符号 的 引用 就 不 能 适当 地 链接 到 B 中 。 简 而 言 之 , 在 这 两 个 模 
块 之 间 存 在 着 依赖 (dependency)。 


A 模块 对 象 的 modules_which_use_me 字 段 是 一 个 依赖 链表 的 头 部 , 该 链表 保存 A 使 用 
的 所 有 模块 。 链 表 中 的 每 个 元 素 是 一 个 小 型 module_use 描 述 符 ,该 描述 符 保存 指向 链 
表 中 相 邻 元 素 的 指针 及 一 个 指向 相应 模块 对 象 的 指针 。 在 本 例 中 ， 指 向 B 模块 对 象 的 
modqule_use 描 述 符 将 出 现在 A 的 modqules_which_use_me 链 表 中 。 只 要 有 模块 装载 在 
A 上 ，modaqules_which_use_me 链表 就 必须 动态 更 新 。 如 果 A 的 依赖 链表 非 空 ， 模 块 A 
就 不 能 印 载 。 


当然 ， 除了 A 和 B 之 外 ， 还 会 有 其 他 模块 (C) 装载 到 B 上 ， 依 此 类 推 。 模 块 的 堆 登 是 
对 内 核 源 代 码 进行 模块 化 的 一 种 有 效 方法 ， 目 的 是 为 了 加 速 内 核 的 开发 。 


模块 的 链接 和 取 济 

用 户 可 以 通过 执行 insmod 外 部 程序 把 一 个 模块 链接 到 正在 运行 的 内 核 中 。 该 程序 执行 
以 下 操作 ， 

1.， ”从 命令 行 中 读 取 要 链接 的 模块 名 。 


2. ”确定 模块 对 象 代码 所 在 的 文件 在 系统 目录 树 中 的 位 置 ,对 应 的 文件 通常 都 是 在 /lib/ 
modules 的 某 个 子 目 录 中 。 


3， 从 磁盘 读 入 存 有 模块 目标 代码 的 文件 。 


4. 调用 init_module() 系 统 调用 ， 传 和 人 参数 : 存 有 模块 目标 代码 的 用 户 态 缓冲 区 地 
址 、 上 有 目标 代码 长 度 和 存 有 insmod 程序 所 需 参 数 的 用 户 态 内 存 区 。 


5. 结束 。 
sys_init_module() 服 务 例 程 是 实际 执行 者 ， 主 要 操作 步骤 如 下 : 


1. 检查 是 否 人 允许 用 户 链 接 模块 《当前 进程 必须 具有 CAP-_SYS_MODULE 权能 )。 只 要 
给 内 核 增加 功能 ,而 它 可 以 访问 系统 中 的 所 有 数据 和 进程 ,安全 就 是 至 关 重 要 的 。 
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22, 


为 模块 目标 代码 分 配 一 个 临时 内 存 区 ,然后 拷 入 作为 系统 调用 第 一 个 参数 的 用 户 态 
缓冲 区 数据 。 


验证 内 存 区 中 的 数据 是 否 有 效 表示 模块 的 ELF 对象 ， 如 果 不 能 ， 则 返回 错误 码 。 
为 传 给 insmod 程 序 的 参数 分 配 一 个 内 存 区 ，、 并 存 人 用 户 态 缓冲 区 的 数据 ,该 缓 串 
区 地 址 是 系统 调用 传人 的 第 三 个 参数 。 

查找 modules 链 表 , 以 验证 模块 未 被 链接 。 通过 比较 模块 各 (module 对 象 的 name 
字段 ) 进行 这 一 检查 。 


.为 模块 核心 可 执行 代码 分 配 一 个 内 存 区 ， 并 存 入 模块 相应 节 的 内 容 。 


为 模块 初始 化 代码 分 配 一 个 内 存 区 ， 并 存 人 模块 相应 贡 的 内 容 。 


为 新 模块 确定 模块 对 象 地 址 ， 对 象 映像 保存 在 模块 ELE 文件 的 正文 段 
gnu.linkonce.this_module 一 节 ， 而 模块 对 象 保 存在 第 6 步 中 的 内 存 区 。 


将 第 6 和 7 步 中 分 配 的 内 存 区 地 址 存 人 模块 对 象 的 module_code 和 module_init 字 段 。 


急 始 化 模块 对 和 象 的 modules_which_use_me 链 表 。 当前 执行 CPU 的 计数 器 设 为 1， 
而 其 余 所 有 的 模块 引用 计数 器 设 为 0。 


. 根据 模块 对 象 许 可 证 类 型 设 定 模块 对 象 的 1icense_gplok 标 志 。 


使 用 内 核 符号 表 与 模块 符号 表 , 重 置 模块 目标 码 。 这 意味 着 用 相应 的 逻辑 地 址 偏 移 
其 替换 所 有 外 部 与 全 局 符号 的 实例 值 。 


初始 化 模块 对 象 的 syms 和 gpl_syms 字段 ， 使 其 指向 模块 导出 的 内 存 中 符号 表 。 


. 模块 异常 表 (参见 第 十 章 “ 异 常 表 ”一 节 ) 保存 在 模块 ELF 文件 的 _ _ex_table 


一 节 ， 因 此 它 在 第 6 步 中 已 撕 入 内 存 区 ， 将 其 地 址 存 人 模块 对 象 的 extable 字 有 段 。 


. 解析 insmoq 程 序 的 参数 ， 并 相应 地 设 定 模块 变量 的 值 。 


注册 模块 对 象 mkobj 字段 中 的 kobject 对 象 ， 这 样 在 sysfs 特殊 文件 系统 的 module 
目录 中 就 有 一 个 新 的 子 目录 (参见 第 十 三 章 “kobject” 一 节 )。 


释放 第 2 步 中 分 配 的 临时 内 存 区 。 


. 将 模块 对 象 妃 加 到 modules 链表 。 


. 将 模块 状态 设 为 MODULE_STRATE_COMING 。 


如 果 模 块 对 象 的 init 方法 已 定义 ， 则 执行 它 。 


. 将 模块 状态 设 为 MODULE_STRATE_LIVE。 


结束 并 返回 0 (成 功 )。 


为 了 取消 模块 的 链接 ， 用 户 需要 调用 rmmod 外 部 程序 ， 该 程序 执行 以 下 操作 : 


模块 


3. 
4. 
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从 命令 行 中 读 取 要 取消 的 模块 的 名 字 。 

打开 Wproc/modules 文件 ， 其 中 列 出 了 所 有 链接 到 内 核 的 模块 ， 检 查 待 取消 模块 是 
人 否 有 效 链 接 。 

调用 aelete_module() 系 统 调 用 ， 回 其 传递 要 鲫 载 的 模块 名 。 

结束 。 


相应 的 sys_qelete_modqule() 服 务 例 程 执行 以 下 操作 ; 


1. 


检查 是 否 人 允许 用 户 取 消 模 块 链接 (当前 进程 必须 具有 CAP_SYS_MODULE 权能 )。 


2.， 将 模块 名 存 和 内核 缓冲 区 。 

3. ”从 modules 链表 查找 模块 的 module 对 象 。 

4. ”检查 模块 的 modules_which_use_me 依赖 链表 ， 如 果 非 空 就 返回 一 个 错误 码 。 

5. 检查 模块 状态 ， 如 果 不 是 MODULE_STATE_LIVE， 就 返回 错误 码 。 

6. 如果 模块 有 目 定 义 init 方法 ， 国 数 就 要 检查 是 否 有 上 自 定 义 exit 方法 。 如 果 设 有 
自 定义 exit 方法 ， 模 块 就 不 能 鲫 载 ， 那 么 返回 一 个 退出 码 。 

7. 为 了 避免 竞争 条 件 , 除了 运行 sys_delete_module() 服 务 例 程 的 CPU 外 , 暂停 系 
统 中 所 有 CPU 的 运行 。 

8. ”把 模块 状态 设 为 MODULE_STATE_GOING。 

9. ”如 果 所 有 模块 引用 计数 器 的 累加 值 大 于 0， 就 返回 错误 码 。 

10. 如 果 已 定义 模块 的 exit 方法， 则 执行 它 。 

11. 从 modqules 链表 删除 模块 对 象 ， 并 且 从 sysfs 特殊 文件 系统 注销 该 模块 。 

12. 从 刚才 使 用 的 模块 依赖 链表 中 删除 模块 对 象 。 

13. 释放 相应 内 存 区 ， 其 中 存 有 模块 可 执行 代码 、module 对 象 及 有 关 符 号 和 异常 表 。 

14. 返回 0 (成 功 )。 


模块 可 以 在 系统 需要 其 所 提供 的 功能 时 自动 进行 链接 ， 之 后 也 可 以 自动 删除 。 


例如 , 假设 MS-DOS 文 件 系统 既 没 有 被 静态 链接 , 也 没有 被 动态 链接 。 如 果 用 户 试图 装 
载 MS-DOS 文件 系统 ， 那 么 mount () 系统 调用 通常 就 会 失败 ， 返 回 一 个 错误 码 ， 因 为 
MS-DOS 没有 被 包含 在 已 注册 文件 系统 的 file_systems 链表 中 。 然 而 ， 如 果 内 核 已 配 
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置 为 支持 模块 的 动态 链接 , 那么 Linux 就 试图 链接 MS-DOS 模块 ,然后 再 扫描 已 经 注册 
过 的 文件 系统 的 列表 。 如 果 该 模块 成 功 地 被 链接 , 那么 mount () 系统 调用 就 可 以 继续 执 
行 ， 就 好 像 MS-DOS 文件 系统 从 一 开始 就 存在 一 样 。 


modprobe 程序 


为 了 自动 链接 模块 ， 内 核 要 创建 一 个 内 核 线程 来 执行 modprobe 外 部 程序 ( 注 2)， 该 程 
序 要 考虑 由 于 模块 依赖 所 引起 的 所 有 可 能 因素 。 模块 依赖 在 前 面 已 介绍 过 : 一 个 模块 可 
能 需要 一 个 或 者 多 个 其 他 模块 ， 这些 模 块 又 可 能 需要 其 他 模块 。 例如 ，MS-DOS 模块 需 
要 另外 一 个 名 为 fat 的 模块 ,该 模块 包含 基于 文件 分 配 表 (File Allocation Table, FAT) 
的 所 有 文件 系统 所 通用 的 一 些 人 代码。 因此， 如 果 fat 模块 还 不 在 系统 中 ， 那 么 在 系统 请 
求 MS-DOS 模块 时 ，fai 模块 也 必须 被 动态 链接 到 运行 的 内 核 中 。 对 模块 依赖 进行 解析 
以 及 对 模块 进行 查找 的 操作 最 好 都 在 用 户 态 中 实现 ,因为 这 需要 查找 和 访问 文件 系统 中 
的 模块 对 象 文 件 。 


modprobe 外 部 程序 和 insmodGd 类 似 ， 因 为 它 链接 在 命令 行 中 指定 的 一 个 模块 。 然 而 ， 
modprobe 还 可 以 递归 地 链接 命令 行 中 模块 所 使 用 的 所 有 模块 。 例 如 ， 如 果 用 户 调 用 
modprobe 来 链接 MS-DOS 模块 ， 那么 在 需要 的 上 时候，modprobe 就 会 在 MS-DOS 模 
块 之 后 链接 .fat 模块 。 实 际 上 ，modprobe 只 是 检查 模块 依赖 关系 ， 每 个 模块 的 实际 的 
链接 工作 是 通过 创建 一 个 进程 并 执行 insmoG 命令 来 实现 的 。 

modprobe 又 是 如 何 知 道 模 块 间 的 依赖 关系 的 呢 ? 另外 一 个 称 为 depmeod 的 外 部 命令 在 
系统 启动 时 被 执行 。 该 程序 查找 为 正在 运行 的 内 核 而 编译 的 所 有 模块 , 这 些 模 块 通常 存 
放 在 /lib/modules 目 录 下 。 然后 它 就 把 所 有 的 模块 间 依 赖 关 系 写 入 一 个 名 为 modules.dep 


的 文件 。 这 样 ，modprobe 就 可 以 对 该 文件 中 存放 的 信息 和 人 proc/modules 文件 产生 的 
链接 模块 链表 进行 比较 。 


redquest_module() 函 数 
在 某 些 情况 下 ， 内 核 可 以 调用 request_module() 国 数 来 试图 自动 链接 一 个 模块 。 


再 次 考虑 用 户 试图 装载 MS-DOS 文件 系统 的 情况 。 如 果 get_fs_type() 国 数 发 现 这 个 
文件 系统 还 没有 注册 ,就 调用 request_module() 国 数 , 希望 MS-DOS 已 经 被 编译 为 一 
个 模块 。 


注 2: 这 是 内 核 依 赖 于 外 部 程序 的 少数 例子 之 一 。 
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如 果 redquest_module() 国 数 成 功 地 链接 所 请 求 的 模块 ，get_fs_type() 就 可 以 继续 执 
行 , 仿佛 这 个 模块 一 直 都 存在 一 样 。 当 然 , 并 非 所 有 的 情况 都 是 如 此 ,在 我 们 的 例子 中 ， 
MS-DOS 模 块 可 能 根本 就 没有 被 编译 ,在 这 种 情况 下 ,get_fs_type() 返 回 一 个 错误 人 码 。 


request_module() 遇 数 接收 要 链接 的 模块 名 作为 参数 ,该 函数 调用 kernel_thread() 
来 创建 一 个 新 的 内 核 线 程 并 等 待 ， 直 到 这 个 内 核 线程 结束 为 止 。 


而 此 内 核 线程 又 接收 待 链接 的 模块 名 作为 参数 ， 并 调用 execve () 系统 调用 以 执行 
modprobe 外 部 程序 ( 注 3)， 向 其 传递 模块 名 。 然 后 ，modeprobe 程 序 真正 地 链接 所 请 
求 的 模块 以 及 这 个 模块 所 依赖 的 任何 模块 。 


注 3: 由 exec_modprobe() 执 行 的 程序 名 和 路 径 名 可 以 通过 向 /proc/sys/kernel/modprobe 
文件 写 入 而 自 定 义 。 


